理念:自动化数据整理将是通过机器学习方法来实现数据自动化预处理。数据特征工程可能在未来的数据科学中发挥重要作用。
1.洞察数据特征
洞察数据特征目的是最大限度地从原始数据中提取特征以供算法和模型使用。当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:
· 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
· 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。
2.自动化模型选取;
选取什么特征,利用什么模型去对数据进行自动化整理,这个过程由建模者观察数据来确定要使用的最佳算法,然后将信息放入模型中。而自动化的做法是机器为数据选择最佳算法,并简化数学复杂性,使模型和结果易于理解。
3.数据自动化质量检查
制定相关规则及训练通过数据质量规则。
实现:
数据整理的自动化处于早期阶段,并将随着进一步的技术的开发和应用而不断发展。我们先实现数据科学组件单一自动化,然后将每个单独的自动化零件组合在一起,以形成一个连贯的系统。下一步是创建更多通用平台,可以自动集成数据科学系统的所有方面。这个过程可能很漫长,但结果可能在整个商业世界是强大的。
目标:
1.首先将数据进行分析,采用最简单的方法进行统计;
2.之后运用更多的数学方法,筛选最佳分析,提取特征;
3.最后,最佳的数学模型便会生成理想的数据整理结果。
场景:
1.结构化数据整理
数据源:结构化数据库
2.网络数据
数据源:网页数据
3.工商失联企业分析系统