Where communities thrive


  • Join over 1.5M+ people
  • Join over 100K+ communities
  • Free without limits
  • Create your own community
People
Activity
    dkuner
    @dkuner
    目前主要用到两个算法库:scikit-learn / statsmodels
    dkuner
    @dkuner
    每个module主要考虑 输入输出类型和粒度 粒度过大通用性差 过小使用复杂(每一个步骤需要组合多个模块)
    dkuner
    @dkuner
    一般的分析流程:1)拿到一份数据集一般想先看一下基本指标这是就可以选一个数据可视化模块展示 2)然后用特征选择模块选出主要的特征 3)生成模型 4)使用评估模块测试模型,比如使用交叉验证评价模型,或者使用可视化模块展示训练集上的残差值,根据结果决定是否使用这个模型 5)在测试集上使用模型 6)使用可视化模块生成结果报表或图形 7)可以使用通用模块简单处理数据集,归档模型,导出模型等
    dkuner
    @dkuner
    模型生成模块需要(X, Y)但是有些 (X, Y)不能从数据集中直接获取如文本分类,而有些可以直接获取如预测问题,所以前面应该有其他模块从数据集总生成(X, Y)
    dkuner
    @dkuner
    理论上只有数据展示模块产生可读信息,作为叶节点存在,这样其他功能模块要想输出信息就可复用,比如从源数据中生成(X, Y)后可统一展示X, Y
    dkuner
    @dkuner
    现在参数无法省略,以后应该允许省略
    dkuner
    @dkuner
    对数据集中X, Y的定义应该一开始就做好,不应该放到功能模块中做,应该做一个 Define_X_Y 模块 input:csv output:X.pkl, Y.pkl
    Category_Show 下一版本应该只从 Y.pkl 中生成图形,这样 prediction 也能使用 TF-IDF同理
    tszjqgs
    @tszjqgs
    挺好,回来具体探讨一下,按照这个思路做一个流程,再从使用反馈不断改进
    tszjqgs
    @tszjqgs
    This message was deleted
    dkuner
    @dkuner
    [+] 1 收集数据
    [+] 2 格式化数据
    [+] 3 分析数据
    [+] 4 训练算法
    [ ] 5 测试算法
    [+] 6 使用算法
    dkuner
    @dkuner
    目前对格式化的实现是从源数据csv文件中根据参数定义的XY导出算法内部使用的XY对象,无论是绘图还是训练只要用到源数据统一使用这个对象而不从csv中解析了,存在的问题是如果workflow中有些module用python实现有些用R实现对接时需要先转成csv
    dkuner
    @dkuner
    测试算法使用交叉验证,可以考虑做两种:1)直接输出模型的评分(已完成) 这样可以快速评价模型 2)输出每一次验证的结果,后接可视化模块展示每次的残插值,此时验证次数固定5次。
    dkuner
    @dkuner
    测试算法使用交叉验证,可以考虑做两种:1)直接输出模型的评分(已完成) 这样可以快速评价模型 2)输出平均预测结果,后接可视化模块展示残插值。
    dkuner
    @dkuner
    [+] 1 收集数据
    [+] 2 格式化数据
    [+] 3 分析数据
    [+] 4 训练算法
    [+] 5 测试算法
    [+] 6 使用算法
    dkuner
    @dkuner
    特征提取,选择,模型评估,这些每一类都可做多个module。
    dkuner
    @dkuner
    现在已经按照之前讨论的思路做了一个workflow样例,以后都会按照这个样例做,下一横向进行module的功能扩展,workflow可能会针对不同任务稍作改变。
    dkuner
    @dkuner
    模块文档应该独立出来
    dkuner
    @dkuner
    module tracker 应该替换成markdown文档, 每个module一个markdown文件便于生成web页面文档 如: http://help.alteryx.com/10.5/index.htm#BrowseV2.htm
    dkuner
    @dkuner
    continer 作为spark master
    dkuner
    @dkuner
    hero_cos_matc_spark已经支持spark,下一步增强CMD模块功能使其能加载spark任务(.jar)
    dkuner
    @dkuner
    This message was deleted
    dkuner
    @dkuner
    Trifacta Wrangler由于是单机软件对数据勘探支持比较好,APS2.0可能定位为分布式大规模数据处理的PaaS平台,提供常用的功能,采用Web-GUI方式实现功能复用。可能的一种模块是像单机软件一样提供数据集的基本统计信息计算模块,产生json输出,平台提供RESTful-API获取workflow中所有模块输出,供第三方调用或通过数据可视化工具直接在Web页面中查看。
    dkuner
    @dkuner
    APS 2.0可以考虑通过 spark-notebook 提供探索模式 https://github.com/jupyter/docker-stacks/tree/master/all-spark-notebook