文件名称:工业建模的特征工程-golang高级编程
文件大小:2.1MB
文件格式:PDF
更新时间:2024-07-21 21:41:25
大数据分析 工业大数据
6.3 工业建模的特征工程 6.3.1 数据初步筛选 对建模过程中可能用到的变量进行了分类,这些变量中,除了和 分析结果有直接因果关系的,还有间接因果关系的;除了有因果关系 的,还有具有相关关系的;除了有相关关系的,还有用于区别场景和 状态的。筛选数据,可以从最基本的因果关系出发,找到理论上所需 要的数据。当理论上所需要的数据不存在的时候,再去找与之相关的 数据。 面对大量的相关数据,应该进行初步的筛选,筛选出能表征关键 因素的数据,才能有效地进入下一步。首先根据领域人员的建议,挑 出若干相对重要的变量;在此基础上,根据拥有统计工具的情况,采 用一些简单有效的算法(如回归分析、方差分析),找出相对重要的 变量。这样选出的重要变量未必是真正重要的,而落选的变量也不一 定是不重要的,初步筛选的目的,只是找到一个相对较好的起点。 6.3.2 特征变换 所谓特征就是能够表征业务问题关键因素的数据字段。原始字段 有时不能够有效的表征影响因变量的属性,可采用特征提取技术、特