2000+万智能终端、8000+万亿条数据集，长虹如何做快速交互式分析？

长虹公司概况

长虹创始于 1958 年，公司前身国营长虹机器厂是我国“一五”期间的 156 项重点工程之一，是当时国内唯一的机载火控雷达生产基地。

从军工立业、彩电兴业，到信息电子的多元拓展，长虹已成为集军工、消费电子、核心器件研发与制造为一体的综合型跨国企业集团，并正向具有全球竞争力的信息家电内容与服务提供商挺进。

历经三个阶段、50 余年的发展，长虹的销售额在近两年，连续突破 1000 亿，成为四川第一大企业。

长虹智能化发展历程

2000+万智能终端、8000+万亿条数据集，长虹如何做快速交互式分析？

长虹的大数据研究始于 2009 年开始启用的 ERP 企业管理系统。

当时，刚刚开始布局数据化的长虹业务数据量不大，用户并发数也比较少。随着企业发展，长虹开展了多元化业务，围绕智能终端，通过更多的渠道和更多的手段，大幅提升数据采样的量级和多样化，进而掀起长虹在大数据浪潮下的变革和创新。

2014年，我们紧跟时代步伐，选择走 Hadoop 这条路，自建公司的大数据存储和计算平台，并依托大数据平台进行整个公司的数据业务开发。

2000+万智能终端、8000+万亿条数据集，长虹如何做快速交互式分析？

有了大数据处理平台，智能化转型核心总结而言就是企业上云、业务上云以及设备要上云，实现公司行政流程、业务流程、生产流程、财务流程的高度信息化、智能化。

上云之后，业务的行为会以数据的形式沉淀到各个数据库，然后汇聚到企业数据仓库，通过对数据的加工，形成相应的数据服务能力，也就是今天所说的数据中台，最终服务于长虹的新兴业务，提升企业的竞争力。

长虹大数据技术的演进

2000+万智能终端、8000+万亿条数据集，长虹如何做快速交互式分析？

为了响应不断变化的业务需求，长虹大数据的技术发展栈主要如这里展示的 Hadoop 这条路的发展历程，主流的开源软件我们都使用。

2016 年，我们在总结长虹的数据特性以及业务需求后开始分析，在我们 2000 多万智能终端、8000 多万亿条数据集的场景下如何做到快速交互式的查询分析？经典的 Hive 已经没法满足快速查询的需求，因此我们开始调研 Apache Kylin 及其商业版 Kyligence Enterprise，并将其作为一个重要的组件工具纳入平台。

2000+万智能终端、8000+万亿条数据集，长虹如何做快速交互式分析？

围绕着我们整个数据的特点，我们在当时确定整体的进化方向，使用 Kylin 加 Druid 的联合方式做整体的业务分析。

2000+万智能终端、8000+万亿条数据集，长虹如何做快速交互式分析？

依托扎实的技术平台，我们总结形成了长虹的大数据业务架构，底层是一个 TinyVoice 平台及大数据基础平台，做数据采集、数据存储、数据管理等。过程中建立公司的整个数据标准体系，而且我们的数据标准体系过审了国家 DCMM 的认证，是四川省首家拿到三级认证的企业。基于标准化之后的数据，搭建了个性化推荐、精准营销、供应链评级等服务于研发、生产、制造等各个方向的系统，最终服务于公司的经营业务。

应用案例

光说数据或者光说大数据都是不行的。数据如果脱离了业务，其实没什么价值，下面介绍一下我们应用大数据技术做的真正有业务价值的案例。

端子分析

2000+万智能终端、8000+万亿条数据集，长虹如何做快速交互式分析？

原来电视机上有很多不同接口，当时我们就想了解下我们用户到底会接哪些接口。于是我们在 2014 年 10 月，对 6 万多个有效联网智能电视终端样本数据的输入端做了一个统计分析。

根据统计我们发现，长虹 CHiQ 电视高端用户用 HDMI 接口的数量最大，传统 CVBS 和 ATV 接口需求量仍然很大，VGA 、YPBPR 使用占比很少。针对 VGA 的用户我们深入分析其 IP 来源，我们发现大部分来自于 CBD 等办公场地，故判断这部分用户应该是企业拿来做投影的，且量特别大，当时就我们建议裁剪。裁剪之后，电视机不仅节省了硬件成本，还节约出了硬件空间，多的硬件空间可以用于其他部件的摆放，从而提升了产品竞争力。

个性化推荐

2000+万智能终端、8000+万亿条数据集，长虹如何做快速交互式分析？

电视的个性化推荐和视频网站的个性化推荐不太一样，我们是没有做内容的，所以我们做推荐，依托自建的媒体库推荐对应的视频软件。

另一个和视频网站不同的是，电视机实际是以家庭的方式存在的，在用户家里有不同的人在用，老人、孩子、家庭主妇等不同的角色可能都在用这个电视机，但是每个人的喜好不同，这就给我们的精准推荐带来了挑战：我们如何确定这个时间点背后的是个什么样的角色呢？

最终我们通过声纹识别、行为训练和分析，形成了家庭 ID 识别的深度模型，它能识别你是男性女性老人小孩，然后整体形成家庭画像，再以家庭画像为依托，对用户进行千人千面的精准推荐。

智能财务 OCR（光学字符识别）识别

2000+万智能终端、8000+万亿条数据集，长虹如何做快速交互式分析？

我们公司在做财务上云的过程中，进行了财务的集中化处理，集中化之后就累计了大量的数据需要进行精细化的采集和分析，所以我们开发了一套 OCR 系统来做票据数据的采集。

实际业务开展过程我们会在 A4 纸上贴很多票，所以 OCR 系统需要首先对票据进行切割，切割完成后票据有些是歪的，我们需要把它旋转。由于我们的票据种类有很多，所以预处理做完之后，系统需要对它进行自动分类，也就是自动分捡的系统所要做的事情。分捡完之后我们会进行票据字符识别，字符识别完成后会进行字段的匹配，我们在字段这里加了语义纠偏的处理方式。

举一个例子，比如成都东站或者成都站，我们会根据爬取的信息，它会有车次信息，图谱会进行检索，检索这个车到底有没有经过成都站还是成都东站，以这个信息辅助我做整个字段识别的纠偏，从而提升整体的票面识别率。

目前，我们的 OCR 图像字符串识别率在国内、国际都属于领先地位，识别率达到97.9%，支持的票据类别 50 类，行业第一，形成 80.5 万条的标注数据集，改善了文字识别领域的一些核心算法，并成功形成了发票识别领域的语义库。

在这个项目过程中我们也实现了 20 多个自系统的数据统一归集，归集到一个数据中。在此之上，我们使用 Kyligence 构建了我们的数据仓库和数据集市，在解决构建非实时这个问题时，还用了 Hive 外表和查询下压相结合的方式来满足业务查询联动的需求。

除此之外还做很多数据相关的应用比如工业大数据、舆情监控分析、战略营销地图、供应链管理、外汇金融、语义云等等。

作者简介：蒲文龙，长虹集团数据服务部技术总监，擅长 Hadoop Eco 的大数据系统架构设计和海量数据下的高并发、高可用应用系统架构设计；主导建设了长虹 Matrix Cloud 基础云平台、长虹大数据基础平台、长虹标签画像体系、长虹个性化推荐体系、长虹工业大数据平台以及长虹大数据平台数据标准体系。目前致力于 Cloud Native 技术和大数据技术在长虹海量物联网设备上的应用和实现。