长虹公司概况
长虹创始于 1958 年,公司前身国营长虹机器厂是我国“一五”期间的 156 项重点工程之一,是当时国内唯一的机载火控雷达生产基地。
从军工立业、彩电兴业,到信息电子的多元拓展,长虹已成为集军工、消费电子、核心器件研发与制造为一体的综合型跨国企业集团,并正向具有全球竞争力的信息家电内容与服务提供商挺进。
历经三个阶段、50 余年的发展,长虹的销售额在近两年,连续突破 1000 亿,成为四川第一大企业。
长虹智能化发展历程
长虹的大数据研究始于 2009 年开始启用的 ERP 企业管理系统。
当时,刚刚开始布局数据化的长虹业务数据量不大,用户并发数也比较少。随着企业发展,长虹开展了多元化业务,围绕智能终端,通过更多的渠道和更多的手段,大幅提升数据采样的量级和多样化,进而掀起长虹在大数据浪潮下的变革和创新。
2014年,我们紧跟时代步伐,选择走 Hadoop 这条路,自建公司的大数据存储和计算平台,并依托大数据平台进行整个公司的数据业务开发。
有了大数据处理平台,智能化转型核心总结而言就是企业上云、业务上云以及设备要上云,实现公司行政流程、业务流程、生产流程、财务流程的高度信息化、智能化。
上云之后,业务的行为会以数据的形式沉淀到各个数据库,然后汇聚到企业数据仓库,通过对数据的加工,形成相应的数据服务能力,也就是今天所说的数据中台,最终服务于长虹的新兴业务,提升企业的竞争力。
长虹大数据技术的演进
为了响应不断变化的业务需求,长虹大数据的技术发展栈主要如这里展示的 Hadoop 这条路的发展历程,主流的开源软件我们都使用。
2016 年,我们在总结长虹的数据特性以及业务需求后开始分析,在我们 2000 多万智能终端、8000 多万亿条数据集的场景下如何做到快速交互式的查询分析?经典的 Hive 已经没法满足快速查询的需求,因此我们开始调研 Apache Kylin 及其商业版 Kyligence Enterprise,并将其作为一个重要的组件工具纳入平台。
围绕着我们整个数据的特点,我们在当时确定整体的进化方向,使用 Kylin 加 Druid 的联合方式做整体的业务分析。
依托扎实的技术平台,我们总结形成了长虹的大数据业务架构,底层是一个 TinyVoice 平台及大数据基础平台,做数据采集、数据存储、数据管理等。过程中建立公司的整个数据标准体系,而且我们的数据标准体系过审了国家 DCMM 的认证,是四川省首家拿到三级认证的企业。基于标准化之后的数据,搭建了个性化推荐、精准营销、供应链评级等服务于研发、生产、制造等各个方向的系统,最终服务于公司的经营业务。
应用案例
光说数据或者光说大数据都是不行的。数据如果脱离了业务,其实没什么价值,下面介绍一下我们应用大数据技术做的真正有业务价值的案例。
端子分析
原来电视机上有很多不同接口,当时我们就想了解下我们用户到底会接哪些接口。于是我们在 2014 年 10 月,对 6 万多个有效联网智能电视终端样本数据的输入端做了一个统计分析。
根据统计我们发现,长虹 CHiQ 电视高端用户用 HDMI 接口的数量最大,传统 CVBS 和 ATV 接口需求量仍然很大,VGA 、YPBPR 使用占比很少。针对 VGA 的用户我们深入分析其 IP 来源,我们发现大部分来自于 CBD 等办公场地,故判断这部分用户应该是企业拿来做投影的,且量特别大,当时就我们建议裁剪。裁剪之后,电视机不仅节省了硬件成本,还节约出了硬件空间,多的硬件空间可以用于其他部件的摆放,从而提升了产品竞争力。
个性化推荐
电视的个性化推荐和视频网站的个性化推荐不太一样,我们是没有做内容的,所以我们做推荐,依托自建的媒体库推荐对应的视频软件。
另一个和视频网站不同的是,电视机实际是以家庭的方式存在的,在用户家里有不同的人在用,老人、孩子、家庭主妇等不同的角色可能都在用这个电视机,但是每个人的喜好不同,这就给我们的精准推荐带来了挑战:我们如何确定这个时间点背后的是个什么样的角色呢?
最终我们通过声纹识别、行为训练和分析,形成了家庭 ID 识别的深度模型,它能识别你是男性女性老人小孩,然后整体形成家庭画像,再以家庭画像为依托,对用户进行千人千面的精准推荐。
智能财务 OCR(光学字符识别)识别
我们公司在做财务上云的过程中,进行了财务的集中化处理,集中化之后就累计了大量的数据需要进行精细化的采集和分析,所以我们开发了一套 OCR 系统来做票据数据的采集。
实际业务开展过程我们会在 A4 纸上贴很多票,所以 OCR 系统需要首先对票据进行切割,切割完成后票据有些是歪的,我们需要把它旋转。由于我们的票据种类有很多,所以预处理做完之后,系统需要对它进行自动分类,也就是自动分捡的系统所要做的事情。分捡完之后我们会进行票据字符识别,字符识别完成后会进行字段的匹配,我们在字段这里加了语义纠偏的处理方式。
举一个例子,比如成都东站或者成都站,我们会根据爬取的信息,它会有车次信息,图谱会进行检索,检索这个车到底有没有经过成都站还是成都东站,以这个信息辅助我做整个字段识别的纠偏,从而提升整体的票面识别率。
目前,我们的 OCR 图像字符串识别率在国内、国际都属于领先地位,识别率达到97.9%,支持的票据类别 50 类,行业第一,形成 80.5 万条的标注数据集,改善了文字识别领域的一些核心算法,并成功形成了发票识别领域的语义库。
在这个项目过程中我们也实现了 20 多个自系统的数据统一归集,归集到一个数据中。在此之上,我们使用 Kyligence 构建了我们的数据仓库和数据集市,在解决构建非实时这个问题时,还用了 Hive 外表和查询下压相结合的方式来满足业务查询联动的需求。
除此之外还做很多数据相关的应用比如工业大数据、舆情监控分析、战略营销地图、供应链管理、外汇金融、语义云等等。
作者简介:蒲文龙,长虹集团数据服务部技术总监,擅长 Hadoop Eco 的大数据系统架构设计和海量数据下的高并发、高可用应用系统架构设计;主导建设了长虹 Matrix Cloud 基础云平台、长虹大数据基础平台、长虹标签画像体系、长虹个性化推荐体系、长虹工业大数据平台以及长虹大数据平台数据标准体系。目前致力于 Cloud Native 技术和大数据技术在长虹海量物联网设备上的应用和实现。