项目背景
大数据及其应用迅速发展,已经渗透到各个行业和业务职能领域,成为重要的生产因素,2015年8月国务院印发《促进大数据发展行动纲要》,将大数据提升为国家战略。在未来的5-10年,我国将把大数据作为提升*治理能力的重要手段,大力推进大数据在*管理中创新应用。为此,《交通运输信息化”十三五”发展规划》中提出要”运用大数据分析技术,开展交通运输经济运行分析、政策实施效果评价、交通发展趋势研判等分析工作,提高交通运输宏观掌控能力”。《交通运输统计发展纲要》也提出要”充分利用大数据、云计算等现代信息技术,变革统计生产方式,再造统计业务流程,丰富统计服务产品,不断提升统计生产能力、管理能力和服务能力,开创交通运输统计发展新局面”。
“十二五”以来,信息化逐渐融入行业管理的方方面面,作为大数据应用的基础,交通运输行业数据资源日益丰富。随着以高速公路联网收费、运输车辆联网联控、智能公交、物流信息平台等为代表的行业信息化重大工程的稳步实施,交通运输行业管理部门所掌握的交通大数据规模爆发性增长,这为推进交通运输行业大数据的应用,以大数据支撑行业管理决策,提高交通行业管理自动化、智能化水平提供了基础性条件。
2012年以来,受交通运输部委托,交通运输部科学研究院以行业中信息化基础最好的高速公路联网收费业务为示范,通过建立全国统一的数据采集规范和数据治理标准,开发基于大数据技术的全国高速公路通行数据动态监测平台,实现了全国29个省高速公路通行数据(源于高速公路联网收费系统)的动态采集,并利用该数据开展行业大数据应用,显著提升了交通运输行业应用大数据的能力,为行业管理决策提供了有力的支撑,成为行业大数据应用创新的典范。
项目概况
主要建设内容
“基于大数据技术的全国高速公路通行数据动态监测平台建设”属于交通运输行业”十二五”信息化重大工程的重要内容,其主要任务是要从全国29个实现了省级高速公路联网收费省份,动态采集其高速公路联网收费数据,并以大数据平台为支撑,在交通运输部实现对全国数据的集中存储与管理,结合行业管理的需要建立业务模型,对全国高速公路联网收费数据进行分析与挖掘,提升行业管理部门的动态监测能力和科学决策水平。
主要问题和挑战
各省高速公路联网收费系统独立建设,系统架构和数据指标差异大
交通行业信息化由交通运输部进行行业指导,各省结合业务管理需要自行进行建设。在高速公路管理信息化领域,各省建设进程差异巨大,东部发达省份高速公路建设起步早,信息化程度相对较高,许多省份在“十一五”期间已经实现了省级高速公路联网收费,而西部许多省份例如*、青海等省则在近几年才开始建设省级高速公路联网收费系统。由于管理*的差异,各省在建设过程中所采用的技术架构不一、数据管理模式千差万别。大部分省高速公路联网收费系统采用ORACLE进行数据存储与管理,而一些发达省份,由于数据量庞大,已经逐步采用大数据管理系统作为数据管理工具。这些差异对从各省的系统中按照统一的技术标准采集数据带来巨大的困难。
各省高速公路联网收费数据指标体系不一,数据质量参差不齐
在数据指标方面,由于不同省份的高速公路联网收费系统都是独立建设,各省结合所采集的指标也存在较大差异,所采集的数据指标和内容也不尽一致,例如,涉及高速公路收费数据的核心数据表,有些省份采集了80多项指标,至有一些省份则拆分成100多项指标。在数据质量方面,不同省份也存在较大差异,例如,数据质量较好的省份,所采集的车牌号信息完整、规范,而一些省份所采集的车牌号,仅仅只录入了车牌号的后3位数字。由于高速公路数据指标体系不统一,数据质量层次不齐,导致数据分析工作难以开展。
交通运输行业缺乏对大数据的处理和分析能力
在交通运输行业,”十三五”之前大量的应用系统建设采用传统的技术架构传输、存储,大数据技术应用在行业管理中的应用处于起步研究阶段。而全国高速公路联网收费数据规模庞大,目前每个月数据量接近10亿条,在全国平台上实现29个省市的高速公路数据的采集,传输,汇聚,对平台的数据承载能力以及稳定性提出了挑战。此外,日益提升的高速公路数据分析需求,对平台数据建模以及计算效率也提出新的要求。
技术方案
针对上述的需求以及技术挑战,自2012年开始,交通运输部科学研究院结合各省高速公路联网收费系统建设的进度以及行业管理决策能力提升的需求对平台进行建设。主要从以下几个方面着手: 1、构建高速公路大数据指标体系,统一数据标准。2、构建跨省的数据采集系统,实现部省之间、不同技术架构系统之间的数据的统一采集、质量控制与数据汇聚。3、利用大数据技术,建立全国高速公路通行数据的管理平台,实现对全国数据的集中存储、管理以及大数据分析挖掘。
统一的数据指标体系
根据交通运输部开展交通运输行业动态监测,进行全国公路运输量测算、分析路网运行特点的需要,经过分析各省所采集的高速公路收费明细数据,我院制定了统一的部级数据采集指标体系,其主要内容包括高速公路公路收费明细数据、高速公路收费站信息、车辆信息以及高速公路电子地图等,核心内容如下:
①明细数据。包括入口网络编号、入口站编号、入口时间、出口网络编号、出口站编号、出口时间、出口车道编号、车牌号、车型代码、车种代码、里程、总轴数、轴型及轴重、车货总重、限重、超限率、是否绿色通道车辆代码、免费类型代码、路径标识、是否ETC车辆代码、ETC车辆电子标签OBU编号、支付方式代码等22项信息。
②数据字典。包括以下5项:
一是高速公路收费站字典。包括网络编号、收费站编号、收费站名称、所在线路编号、所在线路名称、是否省界站、开通时间、所属地市名称、是否开放式收费站、收费站状态、收费站经度、收费站纬度、备注等信息。二是高速公路收费车型字典。包括收费车型代码、车种代码、收费车型定义等信息。三是高速公路货车轴型字典。包括单轴组轴型代码、轴型定义等。四是高速公路免费类型代码字典。包括免费类型代码、免费类型定义等。五是高速公路标识站字典。包括标识站编号、标识站名称、所处路段名称。
此外,高速公路电子地图则以GIS地图的形式采集。
基本业务流程
总体业务主要包括数据报送以及数据分析两部分,数据报送业务主要实现各省原始数据的采集,审核,清洗,存储。数据分析业务则实现了对于数据的分析,查询以及可视化的展示。
总体业务流程如图所示
系统总体架构
整体架构分为6层,数据源层,数据采集层,数据存储层,数据处理层,数据分析层,数据应用层。
数据源层是指各省高速公路联网收费系统,在数据采集层,利用ETL工具和数据传输中间件从各省的前置机采集数据。系统实施时在每个省都部署了数据采集的前置机,在前置机上,通过ETL来对数据进行采集、清洗和标准化,数据传回部里后,利用关系数据库开展常规的统计工作,利用分布式的大数据平台,来进行数据的分析挖掘以及与其他数据之间的关联分析。在数据存储层,采用基于大数据的混合式数据存储架构,利用基于hadoop的分布式文件系统来管理高速公路明细数据,利用关系型数据库存储来存储ods层、dw层和dm层的数据,形成完善的数据仓库架构,在数据处理层,支持批处理、流式处理和混合处理三种方式的数据处理,在数据分析层:利用impala、spark等技术支持即席查询、信息检索,深度挖掘,在数据应用层,以地图、报表的形式展现分析成果。
系统总体框架如图所示:
下图所示为系统数据采集的流程示意图:
系统主要功能
平台主要功能包括数据质量监控、数据统计与查询、专题分析、系统管理、动态配置4个部分,系统的总体功能框架如下图所示:
数据质量监控
通过内置数据审核规则,对各省上报的高速公路通行数据进行质量审核,保证数据的有效性和完整性,对异常数据进行系统报警,提示数据管理人员进行相应处理。数据质量审核包括数据传输监控、数据异常情况预警、数据文件入库情况监控、数据动态监测等。
数据传输监控
数据传输过程监控功能监视ETL工具从各省前置机采集数据以及数据从各省向部传输的过程中是否存在数据丢失的情况。
数据异常情况预警
数据异常情况预警对数据指标按照设定的审核规则进行审核,如有异常则预警提示。审核规则包括入口网络编号+入口站编号不在枚举字典中、货车总轴数为空、货车车货总重为空等多项规则。
数据入库情况监控
根据数据记录数、最小记录时间、最大记录时间等条件实时监控当前数据入库进度,确保数据完整,不存在丢失的情况。
数据动态监测
数据量监测功能对每月各省数据量指标进行监控,从数据指标的角度,通过与上年、上月数据的变化情况监测各省报送的数据质量是否存在问题,主要包括数据量监测、车流量预警、行驶量预警等。
数据统计与查询
根据交通运输部开展运输量统计以及行业经济运行分析的需要,在系统中自动生成客车(分车型)的车流量、行驶量,省内的流量流量等;货车(分轴数)的车流量、行驶量、货物发送量、货物周转量、省内的流量流量等;货车的车货总重、超限率情况;免费车情况、ETC车流量占比情况等40余张监测报表,用于经济运行分析、向国务院报送的交通运输简明月报等相关分析材料中。
数据分析与挖掘
OD分析
该功能对省内城市与城市之间客流、货流的趋势和迁移规律,在地图中用可视化的方式反映某一个城市到其他城市的车辆迁徙特点,或者一个省全部城市之间的车辆迁移特点。
车籍地分析
根据高速公路通行数据中的车牌号信息,在地图中按照”外地车来本省”和”本省车去外地”两个维度,反映省与省之间高速公路车辆行驶的特点和联系情况。
热点收费站分析
该功能主要对全国各省收费站通行量进行统计分析,通过预设不同的筛选条件,如省份,开始时间、结束时间、车辆类型等条件,对通行量排名前10的收费站进行图、表多维展示,对某一个收费站,还支持直接查看其24小时的车流量情况。
收费站流量分析
该功能主要对全国各省高速公路收费站流量数据进行统计分析,通过预设不同的筛选条件,如省份,开始时间、结束时间、车辆类型等条件,对通行量进行图、表多维展示。
通行量时空分析
该功能主要用于分析高速公路上行驶车辆的时间和空间分布的特征,反映车辆在高速公路上行驶的时间和距离特点。
高速公路车流量分析
该功能主要从高速公路车流量角度出发,对不同省份(区域或全国)、不同时间段、不同车型的通行量情况进行统计,利用地图和曲线进行多维展示。
高速公路行驶量分析
该功能主要从车辆的行驶量角度出发,对不同省份(区域或全国)、不同时间段、不同车型的行驶量情况进行统计,利用地图和曲线进行多维展示。
高速公路周转量分析
该功能主要从车辆的周转量(收费里程*车货总重)角度出发,对不同省份(区域或全国)、不同时间段、不同车型的周转量情况进行统计,利用地图和曲线进行多维展示。
应用效果
本案例的应用已经采集了全国29个省的数据,已实现联网收费的高速公路基本都已经纳入数据监测范围,共涉及高速13万公里,收费站接近9000个,截至到2017年8月,总数据量已经接近10TB,记录数超过350亿条,并且,每个月还在以9亿条的数据量在高速增长。利用所采集的全国高速公路通行数据,我院深入开展大数据分析与建模,在交通运输统计、路网运行监测等方面取得了显著的效果。
有效提升了交通运输统计的能力和水平
一、自2016年开始,利用该平台按月监测不同口径下的高速公路客货车流量、7座以下小客车流量、货运量、周转量等主要指标的变化情况,并已在在交通运输经济运行分析、公路水路交通运输统计数据质量核查评估、高速公路运输量旬报等工作中得到了直接应用,相关成果形成后直接向国务院、交通运输部相关领导报送,为行业管理决策提供了有力支撑。
二、2017年,基于该平台开发了《高速公路运输统计监测月报》、《高速公路运输统计监测报告》等新的行业统计产品,是交通运输部首次以大数据技术为支撑,利用行政业务记录直接转换生成统计数据,填补了我国高速公路运输量和区域运输量统计的空白。
为行业管理决策以及高速公路路网运行监测提供了有力支撑
利用该平台为支撑,通过大数据建模与分析,我院实现了全国高速公路交通流量分配、高速公路跨省车辆追踪、高速公路货运通道分析、压力路段分析等行业重点关注的业务分析,为行业管理部门动态掌握高速公路运行趋势和特点、制定物流发展政策、监控路网运行态势提供了有力的支撑。如下图所示,针对11条物流通道进行流量分配,结果显示国家推进的11条物流通道所涵盖的24条高速公路,车流量及货运承载量是高速路网平均水平1.5-1.6倍。纵向通道运输需求更强,平均货运承载量是横向的1.2倍,日均货运承载量前5位中有4条纵向通道。
编制了系列分析报告,大大提升了开展交通行业大数据分析的水平
从2016年4月开始,对全国高速公路通行数据进行挖掘分析,与高德合作开展数据分析,按季度发布中国主要城市交通分析报告,至今已合作发布5期分析报告,每期报告均得到央视、人民网、头条新闻、环球咨询广播、中国新闻网等主流媒体报道,央视财经频道对分析内容进行2次专题报道。2017年8月,以该平台为支撑,我院还编制发布了《2016年度中国高速公路运行大数据分析报告》,报告发布后,受到了行业内外广泛关注,央视新闻联播对报告内容进行了专题报道。这些系列报告的编写和发布对于交通运输部开展综合交通大数据的分析与实践分析、宣传交通运输行业大数据分析成果发挥了重要作用。
央视财经频道报道示意图
经验总结
本项目对高速公路收费数据的采集与大数据分析是对交通运输行业管理和业务以及信息化建设技术等的方面的重大创新
在本平台建成之前,交通运输部主要依托于各类静态统计数据开展行业经济运行分析、支撑行业管理决策。本平台的建设,从业务方面来看,创新性的将传统的汇总数据的采集转化为业务明细数据的采集,通过明细数据对传统统计数据的校核,并开展进一步的数据分析挖掘;从技术方面来看,在采集端用前置机的结构化数据库对数据进行预处理,分担了部级数据中心的压力,在中心端,采用了基于hadoop的混合式分布式计算架构和存储架构,利用大数据技术适应对海量数据的存储和快速处理与计算,在数据模型设计时,借鉴了数据仓库的设计理念,合理的建立了数据模型,在数据分析挖掘过程中,采用BI前台展现,以适应业务多变的需要。
在满足业务需求的前提下,充分利用自上而下管理*的优势,制定技术标准,降低技术方案的实施难度
案例涉及29个省交通运输主管部门和联网收费管理部门,由于各省交通运输厅信息化水平参差不齐,因此,很难直接采用统一的技术方案实现对各省的数据采集,在技术方案设计时,利用交通运输管理部门自上而下的管理*,通过行政管理手段制定并下发了省级数据采集的标准规范,尽量使数据采集方案标准统一,大大降低了平台的建设难度。
技术方案注重加强对数据的质量监控,提高数据质量
平台建设过程中面临着29个省的联网收费系统,其中所生产的数据,结构不一、质量差异也很大,同时,数据需要经过收费站——区域收费分中心——省级联网收费中心——省厅信息中心——交通运输部这样一系列的传输流程,才能传回部级系统,在数据采集和传输过程中,由于网络的因素存在数据漏传、重传等现象,因此,项目技术方案在设计时注重加强对数据质量的监控,对所有采集字段都设置了质量标准,从不同阶段数据量的监控、字段逻辑合理性的监控、数据传输过程的监控等多个方面控制数据质量。
效益评估
本案例研究提出的基于大数据技术的交通运输监测数据采集和处理方案,为交通运输监测大数据的采集与处理提供了新的技术途径。研究成果推动大数据技术在行业管理中的应用,大大提升交通运输行业对大数据的综合处理能力,解决现行制约行业数据发挥综合效益的技术瓶颈,为充分挖掘和发挥行业数据效益提供可靠的技术手段,推动行业信息化发展水平不断提升,进一步提升行业管理效率。同时,基于大数据技术的交通运输监测数据采集和处理方案,其技术基础是目前各类开源大数据技术,利用该方案建设行业大数据采集和处理的信息系统,将不需要再采购价格昂贵的Oracle、DB2等数据库软件,可以大大节省系统的建设经费,具有较强的经济效益。