These are chat archives for DataCanvasIO/APS-MODULEs

6th
Jun 2016
dkuner
@dkuner
Jun 06 2016 04:20
目前主要用到两个算法库:scikit-learn / statsmodels
dkuner
@dkuner
Jun 06 2016 04:26
每个module主要考虑 输入输出类型和粒度 粒度过大通用性差 过小使用复杂(每一个步骤需要组合多个模块)
dkuner
@dkuner
Jun 06 2016 09:44
一般的分析流程:1)拿到一份数据集一般想先看一下基本指标这是就可以选一个数据可视化模块展示 2)然后用特征选择模块选出主要的特征 3)生成模型 4)使用评估模块测试模型,比如使用交叉验证评价模型,或者使用可视化模块展示训练集上的残差值,根据结果决定是否使用这个模型 5)在测试集上使用模型 6)使用可视化模块生成结果报表或图形 7)可以使用通用模块简单处理数据集,归档模型,导出模型等
dkuner
@dkuner
Jun 06 2016 10:08
模型生成模块需要(X, Y)但是有些 (X, Y)不能从数据集中直接获取如文本分类,而有些可以直接获取如预测问题,所以前面应该有其他模块从数据集总生成(X, Y)