数据挖掘应用的困境和展望

时间:2023-01-08 16:29:31
发布时间:2005.11.29 11:53     来源:赛迪网     作者:岳亚丁


数据挖掘,作为一种新颖的数据分析手段,在我国越来越多的企事业单位中得到应用,被广泛应用于数据库营销、客户关系管理、顾客行为预测、市场趋势预测等。但是,随着数据挖掘应用的深入,对该项技术的误解也在增多,加上目前数据挖掘本身的局限和人为的局限,导致数据挖掘在应用过程中容易出现一些问题。本文讨论了当前的困境,并对未来数据挖掘的应用发展进行展望。

一、 数据挖掘的内在局限性
对数据挖掘技术期望过高,是数据挖掘应用过程中经常出现的一个问题。企业管理人员或者业务人员抱着美好的愿望,希望数据挖掘像“魔杖”一样解决面临的棘手问题,但是如果要求的结果与已有的数据没有关联(或者相关性太小),数据挖掘是无能为力的。一个典型的情况是,企业可能会要求挖掘出客户流失的原因。例如,电信运营商可能会要求挖掘出某个客户流失究竟是因为对网络质量不满,对服务质量不悦,还是对资费政策有怨言,但是实际上能够挖掘出来的结果只能是类如“如果最近一个月漫游通话次数小于25次、交往圈人数三个月均值小于97个、…则符合这样条件的客户的流失概率为46%”的判断规则。一些人似乎还没有做好如何应用概率结果的心理准备,一下子陷入失落和虚无,尽管概率形式的挖掘结果是更精确的结果表达方式。实际上数据挖掘不能找出逻辑因果,只能找出数据上的关联,且不能把数据关联关系当成因果关系。例如:有人根据“在亚利桑那州死于肺结核的人比其它州的人多”,就判断出原因是“亚利桑那州的气候容易使人生肺病”,但是真实的原因可能是“亚利桑那州的气候对害肺病的人有好处,所以肺病患者纷纷前来,使得这个州的死于肺结核的人数升高了”。又例如:挖掘发现,“大多数车祸出现在中等行驶速度当中,极少的事故出在高于150公里/小时的速度上”,因此有人可能认为“高速行驶比较安全”,殊不知“多数人是以中速行驶,因此多数车祸出在中速行驶的车辆上”。

二、 把数据挖掘当作一个IT项目来做
IT专业出身的管理者,容易把数据挖掘理解成一种管理工具,因此倾向于把数据挖掘建成类似一种MIS的东西,希望有一个界面,登录进去后,点几个按钮,神奇的预测结果就展现出来。这种僵硬的做法有可能窒息数据挖掘的强大威力。有些企业把客户细分模型固化下来,使其对每个月的全体客户用同一模型评分,这样做的目的仅仅是为了保证市场部既定的营销策略能够持续地实施下去。这些企业显然没有想到应该根据市场的变化及时灵活地改变营销策略,或者目前还做不到这样,或者是不太愿意求变,否则他们一定会要求数据挖掘工程师每月生产出数十、上百种客户细分结果,然后像鲨鱼嗜血一般地从中寻找商机的。企业本身严重缺乏专门的数据分析人员,为了省事而要求把数据挖掘做成管理系统一样的东西,也是其中的原因之一。

三、 技术采用的偏颇
对数据挖掘算法技术理解的不全面,也可能导致企业只愿意选择那些结果外观容易理解的技术,使得数据挖掘的功能得不到充分发挥。例如,在交叉销售(cross-sell)的应用中,关联分析(Association Rules)的结果简单、易理解,受到企业管理人员的青睐,其态度影响了数据挖掘人员的工作取向,最终可能是浅尝辄止,而没有采用功能更强、能够具体到个人的购买倾向度预测模型。又由于因为企业粗放式的经营管理、对传统细分方法(例如对客户属性区间的人为划分)的顽强依赖,不理解聚类细分相较于传统细分有哪些好处,导致对聚类细分技术的疑虑和冷落。甚至有些业务问题其实采用市场调研(Market Research)的统计类方法能够很好地解决,但是出于种种原因,有些企业宁肯采用昂贵的挖掘工具。市场调研中的“认知绘图”(Perceptual Mapping)类方法还远远没有得到应有的重视和应用,至少它们应该作为数据挖掘的良好补充。这有点像大家都去练少林绝技,简单实用的罗汉拳遭到了冷落。

 

四、 对数据挖掘结果的怀疑
一些企业管理人员,包括一些计算机专业人士,还表现出对于数据挖掘结果的应用缺乏信心。这显然是因为他们没有注意到数据挖掘模型在应用之前有一个检验的工序,模型将在历史数据基础上进行多次精度检验,当然也可以对最新的业务数据进行预测并且稍后检验预测的正确性。模型经过这样的检验后,应该能够打消应用前的担心。还有另一个极端,即对数据挖掘模型的预测能力期望过高,甚至预先指定应该达到某一指标,就像强令医生必须把手术室里的病人治好一样,殊不知挖掘模型的精度受多种因素影响,精度提高都是有一定限度的,勉力为之无异于搞“*”。如果从投资回报(ROI)角度来看问题,则能够比较合理地测算一项数据挖掘工作的实施是否合算,而不需要把目光局限于模型的某一绝对精度上。

五、 数据挖掘工具的局限
大家都知道,数据挖掘的60-80%工作量花在数据准备阶段。其实在建模过程也是需要大量的手工劳动的。目前的数据挖掘软件工具中,各算法采用默认的参数设置并不总是最合理的,不能得到最佳的预测模型的,因此对于每个业务新问题,都要重新探索数据的相关性,进行算法参数的重新调整和配置,以得到优化的模型。这也正是当前数据挖掘工程师的价值所在,他们能够根据原理和以往经验做出决定,迅速判断应该如何对模型调优。但是,由于现实问题太复杂,已有的原理并不能始终指导模型的调优方向,更多的时候还是依赖大量的数据试验摸索前进,因此建模的过程也是漫长痛苦的。现有的很多数据挖掘工具并不支持复杂调优过程的自动化。

事实上,数据准备过程(或者归于挖掘建模的数据探索过程)也饱含不确定性,对于究竟应该选用哪些因素(字段)来建立模型,以及因素的粒度应该多大,目前缺乏足够的判断依据,只能按照惯例、业务直觉和猜测来进行确定。

目前对于各行业、各类典型问题的应用缺乏标杆模式作为参考,学术界、有关的工业组织似乎还没有投入人力进行这方面的研究总结。数据挖掘工程师更像一个年轻中医,需要通过不断尝试来积累经验,这与数据挖掘算法本身的自学习能力形成极具讽刺意味的对比。

六、 未来展望
性能:在过去10多年里,计算机硬件性能的巨幅提升和数据库技术的飞速发展,使得企业级大数据量的计算成为现实,未来若干年里可能仍然如此,但是数据挖掘涉及的数据量会更大。

工具:挖掘工具将越来越强大,汇合的算法越来越多,预测类算法将吸纳颇具新意的算法(支持向量机、粗糙集、云模型、遗传算法等),并将实现算法的自动选择和参数自动调优。遗传编程(GP)、归纳逻辑编程(ILP)类算法的巨大潜力将得到充分发挥。

应用:作为一种无法绕过去的必需的技术,数据挖掘的应用领域将越来越广。除了应用于大型专门问题外,还将走向嵌入式,更加智能化而不引人注目——想一想,我们有多少人在使用搜索引擎时了解其后台是如何工作的?最终“数据挖掘工程师”的职位将逐渐消失,就像1945年第一台电脑ENIAC运行时需要来回奔跑更换烧毁的电子管的工作职位最终消失了一样。数据挖掘概念将像微积分一样在大学里得到普及教育,成为“未来人”的基本常识。(T112)