引言
2022年8月,货拉拉大数据专家、基础架构负责人——王海华作为“DataFunSummit2022:数据治理在线峰会”的“交通/物流数据治理实践”主题论坛出品人,特别邀请了中通、顺丰、货拉拉等交通/物流行业知名企业的数据治理专家,在线分享了各自企业进行数据治理实践的宝贵经验。分享内容涵盖了数据治理体系、平台建设、落地实践等多个层面。
中通科技
中通科技资深架构师——薛世敏以《中通数据治理实践》为主题做了精彩分享。中通数据治理的驱动力是什么以及数据治理在中通的落地实践经验。
数据治理的驱动力所在
薛世敏从业务痛点、国家法律法规等方面指出了中通实施数据治理的驱动力所在。
他还指出,中通数据治理的目的在于提升数据治理、实现数据汇聚连接、掌握数据资产现状、保障数据安全合规、释放数据业务价值。
实践经验
薛世敏分别从数据质量治理、数据模型治理以及元数据治理3个方面介绍了数据治理的实践经验。
在数据质量治理方面,中通通过完善的数据质量监控流程和监控平台来实现数据质量问题的发现。基于规则体系,在业务各层级(ODS/DW/DM/应用)的数据加工过程中设置检测点,数据加工会触发检测点的执行,然后输出检测结果,对于异常结果会进行提醒和分析。
中通科技通过业务专题分析来驱动数据质量问题的解决。
在数据模型治理方面,因为业务的持续增长、项目快速迭代、数据建设不规范等原因,导致数据模型的复用性不高、数据时效不稳定、资源成本增长过快等问题。中通从规范的制定、过程管控、模型分级三个方面的工作对数据模型进行了复用度治理。
顺丰科技
顺丰科技数据治理专家——王敏君带来了《来自顺丰科技的企业数据治理实践》主题的精彩分享。内容囊括了顺丰科技数据治理体系的演进路线、顺丰整体数据治理框架以及数据治理在顺丰的实践经验。
数据治理体系的演进之路
王敏君首先对顺丰科技数据治理的总体做了介绍。顺丰科技数据治理体系的演进路线在时间上大致分为三个阶段:
• 在2020年前,业务需求驱动,各领域能力分散建设;
• 2020年 - 2021年,支持业务分析经营决策、逐步完善数据治理能力建设;
• 2022年及以后,以高效支持经营决策、业务运营提效为目标,构建数据治理体系,端到端闭环治理数据问题。
数据治理框架
顺丰数据治理整体框架是以平台工具能力、治理组织为基底,用以支撑数据生产管理、数据消费管理以及数据架构管理等数据治理的核心工作。平台工具能力主要有主数据管理平台、数据质量、数据质量管理平台以及数据市场。
通过相关政策规范(主数据管理规范、指标口径管理规范、数据安全管理政策)来指引数据治理能力的建设。
数据治理在顺丰的实践经验
王敏君还从数据治理工作的关键要素和主数据治理两个方面分享了数据治理在顺丰的实践经验。他认为,数据治理要取得成功需要具备4大要素:高层领导的支持、运营组织(业务+技术)保障常态化治理、考核与激励双结合、长短结合,分阶段实施。继而介绍到,顺丰在进行数据治理工作开展及推进的两大关键要素:组织领导机制以及治理的方式与切入点。
最后,他还分享了顺丰进行主数据治理的实践经验。顺丰的主数据治理有4个关键步骤:
1. 识别主数据&明确主数据的Owner;
2. 数据标准制定;
3. 确定可信业务源系统;
4. 数据质量监控与提升。
其中,对于如何识别主数据&明确主数据的Owner做了详细介绍:
1. 首先从业务视角、管控视角和技术视角三个视角分析,穷尽和识别出公司所使用的主数据;
2. 然后按照顺丰主数据分类框架对现有的主数据进行梳理与识别;
3. 最后对各类主数据明确Owner及职责分工;
货拉拉
分享了如何通过平台建设和项目实践,来实现成本治理与稳定性保障。
数据治理平台建设实践
首先是货拉拉大数据工程师陈元与张放带来了《货拉拉数据治理平台建设实践》主题的分享。分别从数据质量平台和成本治理平台两个方面做了详细的介绍,包括建设思路、技术架构与成效。
陈元介绍到,数据治理平台的建设是实现数据治理措施落地、降本提效的关键环节之一。随着货拉拉业务的不断深化和扩展,一方面,大数据仓库需要接入和处理的数据量越来越大,另一方面,业务对数据的价值挖掘需求也日益加深。在没有有效的成本管控、数据质量监控的环境下,导致大数据资源成本不断增长,数据质量问题也不时发生。通过产品化的能力支撑是解决这些问题的必然路径之一。
货拉拉数据治理能力主要由元数据管理、数据质量管理以及数据安全管理三个平台来支撑。其中元数据管理平台提供数据模型管理、数据资产管理、数据血缘影响分析、成本管控能力,承担事前的规范约束以及事后的问题排查和成本治理。数据质量平台提供一站式的全链路数据质量检测和监控告警能力,负责事中数据质量问题的监控和告警。
用户可以借助一站式的数据质量管理平台,无需编写代码,便可以完成质量规则的配置、质量检测和自助生成质量报告。对于数据质量检测不通过的,会及时触发告警或者任务熔断,保障及时发现数据质量问题以及防止问题往下游扩散。系统后端服务应用了无状态的微服务架构、调度执行器是多实例部署。保障了数据质量检测的稳定性。同时基于公司自研的混合引擎服务,能够将80%以上的SQL路由到Presto引擎去执行,P80数据质量检测任务能够在5s之内执行完成。
目前通过数据质量管理平台,已经完成了100%核心链路表的数据质量监控覆盖,每月帮助数据开发人员及时发现数据质量300次以上,有效地保障了数据质量和数据链路稳定性。
张放介绍到,货拉拉自研的元数据管理平台,遵循建规范、做治理、建能力、做运营的整体建设方针,构建全局数据地图和全链路数据血缘、支撑成本治理体系、推进数据模型规范化以及构建数据资产管理能力等, 为数据治理各环节提供重要基础能力支撑。
基于元数据管理平台打造的成本治理体系,依托于资源预算制和数据资产度量体系,再配合有效的辅助治理措施,建立资产健康分红黑榜,持续运营,达到成本目标。
以存储治理为例,在无治理的情况下,面临这些问题:表数量大、且增长快速,冰数据占比多,约33%的数据90天内无访问,但是这些冰数据的存储成本消耗和标准存储一样,造成很大的成本浪费。我们采取了冷热分层归档和生命周期管理等辅助治理措施。冷热分层归档定义了数据冷热分层规则,对热、温、冷、冰数据采用不同的存储策略;再配合生命周期管理,对存量存储持续治理,初期就能有较可观的收益,同时推广运营产品化能力,全面覆盖增量表,能有效抑制存储增长趋势。优化前存储几乎呈线性的快速增长;优化后存储8个月零增长,并且持续下降,目前累计节省54%的存储成本。
数据治理实践之稳定性保障
货拉拉大数据专家、数据资产负责人黎仁全带来的《货拉拉大数据治理实践之稳定性保障》精彩主题分享。黎仁全从遇到问题->定位原因->解决方案->方案落地->结果验收这个思路来展开了这次的分享。
首先,他介绍了货拉拉在业务持续增长、IT成本居高不下的背景下,当前面临到保障链路和任务日益增加,核心保障链路的面临着数据质量故障节节攀升、数据链路延迟产出不断增长等挑战。接着分析了大数据全生命周期的数据生成、数据接入、数据处理和数据服务四个阶段产生影响到链路稳定性的问题根因,并提出了事前预防、事中监控和事后完善的思路。
接下来,针对以上问题,他系统性地提出了解决方案,主要是通过平台支撑、组织保证、制度建设、项目落地4个方面,并分享了货拉拉大数据数据资产体系的整体架构。
接着,他通过“事情-规范与流程”、“事中-监控与应急”、“事后-复盘与整改”三个部分深入介绍了货拉拉大数据资产团队的解决方案,特别是在事中部分,除了监控数据链路,还对结果产出的值班做了异常监控,以提供业务感知能力,并在事后完善的过程中,提出了复盘整改与常态化运营机制,从被动式解决问题到主动式解决问题的推进。
从结果效果来看,从2021年Q4开始的一系列治理措施,确实取得了很好的效果。
最后,他从三个方向:“智能预测算法提升指标监控准确性”、“智能告警策略提升值班幸福感”、“一键式自动化治理”来确定稳定性保障的未来的方向。