商务大数据统计

时间:2024-03-19 20:14:21

第一部分 项目背景及挑战

1.项目背景与意义

伴随着互联网与信息技术不断发展,系统数据量不断增大,数据分析越来越复杂。如何从海量数据中挖掘出有价值的数据信息,辅助科学决策、促进社会经济发展,成为*行政服务能力一项新考验。近年来,商贸流通统计工作进展迅速,指标体系基本成型,统计工作机制初步建立,数据样本结构不断优化,统计成果应用加深。但目前商贸流通统计中还存在”数据质量参差不齐、行业分析深度不够、统计人员业务素质有待提高”等问题。另外,商贸流通数据分散在相关地市商务局的各个原有部门,无统一的储存方式和标准,存在”数据散、统计困难、数据展示不直观、数据利用率不高”等问题,需要将分散、异构、多源的数据进行归集处理。因此,结合商贸流通统计业务需求设计适用轻量级数据仓库,开展面向统计业务的数据映射换规则研究,利用计算机软件技术解决商贸流通数据处理分析难题,对于提高统计效率与加强行业数据分析深度,具有重要的工程价值。

2.应用场景与需求

东莞市商务局作为东莞首个大部制改革的典范,商务数据统计工作强度越来越高、需求变化越来越快。同时,东莞商务局现有商务数据比较分散、难于利用,而且统计工作大多基于传统人工方式,统计效率不高、统计实时性不强、统计深度不够、数据展现不直观,缺少对商务数据进行趋势预测,迫切需要基于大数据经济统计系统,以数据全方位、有深度、高效率的统计分析为目标,实现商务数据的统一处理、经济统计更高效。

3.IT环境及数据资源

3.1基础IT环境

商务局内部建有的系统分为内部应用系统和垂直应用系统,内部系统主要为局内自建的应用系统,供局内部工作人员进行独立业务统计查询使用;在内部系统IT设施中,有16台服务器,主要以IBM、DELL服务器为主,其中,有超过7台服务器,其配置较低(CPU小于8核,内存低于8G),各服务器操作系统以Windows server2003、Ubuntu系统为主,数据库系统分别是Microsoft Sql server以及 Oracle;存储设备使用HP的光纤存储,容量为1T,存储IO为1G,带宽偏低;垂直应用系统多为商务部及商务厅系统,经商务内网或v*n直连网络使用,供商务局各科室及镇街办单独填报数据及下载数据。

3.2数据分布与组成

东莞商务局现有数据,既有内部信息系统采集,也有垂直系统采集,同时还包括第三方*机构数据,如海关(按年支付数据费用);数据统计要求按月度定期进行汇总统计,并形成统计报表。

目前东莞商务局月度报表的数据采集来源主要有以下3个:

(1)商务局职能科室的数据采集:采集方式是通过应用系统以表格方式导出Xls数据,再经过手工汇总、处理后形成统计报表。

(2)东莞市级相关部门的数据采集:涉及工商局、统计局、地税局、外汇局、科技局,需要通过东莞市政务信息共享平台采集相关数据。

(3)业务系统的数据采集:*、省级直属应用系统数据。这部分未提供数据接口,只能通过手工复制粘贴到Xls文件的方式采集。

已有系统分为内部应用系统和垂直应用系统,内部系统主要为局内自建的应用系统,供局内部工作人员进行独立业务统计查询使用;垂直应用系统多为上级商务部门及商务厅垂直系统,供填报数据及下载数据。

4.问题与挑战

4.1异构多源数据采集清洗

传统的数据采集方法主要在同源、同构数据间,主要以数据库厂家提供的数据处理工具为主,选择源数据库与目标数据库执行”比对、匹配”等操作,并以中间表形式存储映射结果。在不同数据库平台之间数据互连操作,称为异构数据库集成,各个数据库厂家均提供异构互连的方法,但各厂商方法不一样。

Oracle中异构集成技术称为透明网关(Transparent Gateway),在Oracle8i版本后,通过使用ODBC组件链接SQL服务,通过SQL服务对各类数据库进行SQL操作。SQL server的异构集成工具称为Linked Server,通过ODBC实现与其它数据库的互联。Hadoop的Info Sphere Data Explorer平台,实现了大数据、RDBMS、Streams、File System与WEB 2.0等异构数据采集框架。

通过调研,东莞商务数据分散在多个数据源与不同数据库系统中,数据结构与数据分布复杂,如何实现异构多源数据采集、清洗、建库以利于数据应用是面临的首要问题。

4.2商务数据分析与挖掘

传统商务数据分析挖掘主要以*管理部门的经济数据为主,但随着互联网、电商平台的快速发展,跨境交易、线上交易系统的发展越来越快,商务数据统计需要涵盖各类互联网平台的数据。东莞作为外向型经济主导城市,外贸、外资市场非常活跃,商贸流通情况非常复杂。经济统计中贸易方式、区域经济发展、转型升级等经济统计口径多、数据结构多样。在商务数据分析与挖掘领域,各类计量工具与数学方法非常普遍。通过数据分析与挖掘,规避了传统商务经济研究中纯理论文字描述的弊端;针对经济发展趋势、预测等问题,通过计量分析提高了经济研究的准确性与科学性。

商务数据分析与挖掘也是区域商务统计、商务经济分析的重要组成部分,在经济学上有较多的基于统计的数据分析与挖掘模型及算法,但模型的应用较宏观,在地市经济体与细分产业行业领域如何选择有效的商务数据分析与挖掘模型,是项目面临的另一个重要挑战。

第二部分 技术解决方案

1.拟采用的技术方案

1.1异构数据采集清洗

多源异构数据有两种情况,一种是指不同数据库(多源)并且数据库结构不同(异构)。在这种情况下,数据映射方式与多源同构数据映射方式差别不大。但由于使用异构数据库互连操作,会出现执行效率不高、系统开销大等问题。另外一种多源异构情况指不同数据源(多源),且数据分为结构化和非结构化(异构),此种情况也可以称为”大数据映射”。由于此种情况下,数据结构不固定,数据质量和信息量复杂,数据映射方法除了要考虑常见的异构问题外,还需要考虑大数据的采集处理效率、映射准确率与数据转化利用率等更多问题。

1.2商务数据分析与挖掘

在经济统计领域有很多不可量化的模糊问题,如经济发展预测、外贸走势等。面向这些复杂的经济问题,需要高质量的统计数据,需要用到准确、高效的量化分析方法与算法模型,还需要结合区域经济的现状与理论。大数据时代的经济统计分析将使用计算机技术,改变经济统计分析的现状,在经济统计分析中将复杂的经济现象收集整理,运用统计方法与模型对数据进行定量分析与运算,将模糊的经济问题通过统计清晰的抽象描述,大幅提高经济统计效率和分析准确率。

随着计算机技术的快速发展,云计算、大数据技术让大规模数据采集、处理、分析变得成本更低、效率更高,近年来利用数据仓库对大量数据处理变得更可行。

商务数据分析与挖掘有两种思路:一种不关注高深的数据挖掘理论与算法,利用高性能计算机处理大量的数据并实现数据分析挖掘。这种方法在”描述性统计”中应用效果较好,但由于大量数据带来的数据质量不高、算法效率低及数据结构不一致等问题,导致在”推断统计”中预测结果不可控。另外一种是通俗化。即将数据分析与挖掘结合行业知识,利用计算机将大规模行业数据通过分析挖掘转化为信息。

1.3技术选型与设计

系统基于java J2EE技术架构,并通过 B/S模式支持web和移动访问;通过SSH集成框架实现MVC三层架构,由Struts负责表示层和服务逻辑组装,Spring负责管理服务层,通过配置来实现核心业务逻辑,Hibernet负责平台模型和持久化层,并支持数据库表到数据实体的转换,最终实现表示层、业务层、数据持久层、实体层、服务层的解耦分离。平台在表示层采用Ajax的异步处理技术,灵活支持web套接字对长服务的调用,同时服务层以RESTful web方式提供GET/PUT等常用资源操作接口。

2.技术思路与技术路线

2.1技术思路

要解决东莞商务局现有的问题,达到未来的预期目标,应从整体、全局上把握当前重点解决任务,形成长远可持续的大数据平台发展思路,以”分步建设,重点先行,边建边用”为建设原则,以”上平台,统数据、成体系”为建设思路。以面向*、行业协会、企业,打造提供”全方位、系统化、多层次”的商务数据服务为总体目标,以”一库、一平台、三体系、两标准”为重点建设内容,结合东莞市商务经济实际情况,勇于创新,突出重点,循序渐进,逐步实施。

第一,加强与有关部门、协会的沟通协作,以”*牵头、部门配合、行业协作、企业主动”工作思路,建立*、镇街、协会、企业多级信息采集机制。

第二,充分利用市信息资源共享平台,注重商务信息资源整合,努力建立规范、完整、系统、科学的信息搜集渠道,形成集中统一的商务信息共享资源池。

第三,充分运用大数据、分析挖掘等技术手段,创新*服务职能,提高统计数据质量、商务经济运行监测预警、经济决策支持、企业引导服务水平,提升商务信息资源利用能力,不断放大对*决策和企业发展的服务效能。

第四,分阶段,逐步实施,结合东莞市实际,以内部统计服务能力提升基础,以服务*决策和企业服务为根本,逐步提升决策支持的精准性、科学性,丰富完善企业精细化、精品化服务手段,重点建设最急需、最实用、最便捷的商务经济运行指标,不断发挥商务信息资源分析价值。

2.2技术路线

项目重点规划建设商务信息资源库,商务大数据服务软件平台,贸易监测预警体系、决策支持服务体系、企业引导服务体系三大体系,及商务信息资源和运行服务两套标准规范。

商务大数据统计

如上图所示,技术路线重点考虑如下:

一方面,平台整体支撑能力,按照领域驱动设计理念,运用模块化、组件化、服务化的整体架构,充分考虑平台后续资源扩容性、用户规模增长、模型分析需求,保障可扩展性、高并发性、可用性、安全性。

二方面,信息梳理获取方式,通过设计多种采集策略,除传统数据录入、导入外,运用接口采集、数据库引擎调用、web服务等技术手段,实现包括不同来源、不同类型、不同结构的商务信息统一归集。

三方面,数据存储处理能力,综合运用传统数据库及NoSql对数据进行分类存储处理,传统结构化数据采用关系型数据库存储;半结构化或文档型数据采用非关系型分布式数据库存储。根据数据一致性不同层次要求,提供分类存储保障,包括内存cache、同步更新、异步更新等机制结合。并充分运用大数据并行计算框架,提升数据高并发的处理响应能力。

四方面,数据综合分析与决策支持手段,除传统数据统计分析方式外,进一步构建商务主题分析数据仓库,并综合运用分析挖掘中的特征抽取、分类、聚类、决策、神经网络等大数据分析方法,建立各类商务运行指标和模型,充分发挥大数据在决策支持、形势研判、趋势预测等方面作用。

五方面,商务信息服务能力提供,建立面向*、行业、企业及向社会开放的统一信息服务目录,授权对服务内容订阅;建立统一的信息审核发布制度,定期将商务运行分析结果向不同对象开放和推送。

3.技术方案架构和特点

3.1技术方案逻辑架构

商务大数据统计

商务大数据统计项目充分考虑了现有电子政务基础资源,利用云计算和大数据技术,按照”九层两翼”的逻辑方式进行设计。描述如下:

用户层:平台主要的服务对象包括*领导、主管机构、涉外经济机构,以及行业、企业

展示层:各类用户获取服务和交互的统一入口,主要由门户和各类访问渠道组成,访问方式包括web和移动端。用户可以通过各种渠道进行所需服务的访问,实现任何时间、任何地点的多渠道访问。

应用层:根据局内业务职能和东莞市商务运行发展需要,通过调用平台提供的各类标准服务接口,完成统计应用和管理服务两大类应用系统定制,其中统计类主要满足各科室数据统计分析职能,管理服务类则在统计分析基础上,建立业务模型并提供基于商务监测运行、预警、预测分析、综合研判服务,如外贸走势、消费趋势、出口货源地分布、公平贸易指数等。

服务层:该层主要对平台各类业务所需的基本操作进行服务封装,通过组件化、接口化方式对上层应用提供统一接口。服务组件共分互联互通、内部职能、辅助决策、企业服务4大类,其中互联互通主要提供商务领域统一的信息资源目录和信息共享服务接口;内部职能类主要提供商务数据上报、统计分析、行业市场监测、业务指标查询;辅助决策主要通过模型分析结果,对行业、区域、市场发展趋势和未来形势作出预判和多维分析;企业服务是将局内的经济统计分析、趋势预测、市场动态等信息,在保障信息安全前提下,有针对性的向企业推送。

模型层:该层主要是通过大数据分析挖掘工具,对平台已有历史数据样本,进行统一的分析,抽取各类业务主题的特征,建立数据分析模型,主要包括外贸发展 、企业经营、统计指标3大类模型。

支撑层: 该层为平台的通用支撑层,为平台各类应用系统提供统一的业务和数据管理运行时支撑。其中数据管理方面包括统计管理、报表管理、报告管理、分析挖掘、查询检索等模块;业务管理方面包含工作流引擎、服务管理、消息管理、统一授权等模块;此层将更多完成中间数据和业务的协调和支撑。

资源层:提供平台统一的数据资源规划和分类存储,我们将资源分为基础数据、统计数据、主题数据3大类。其中基础数据考虑业务需求,分为外贸、外资、商贸流通、口岸、电子商务5类业务基础库以及企业综合基础库(根据企业类型,将涵盖5类业务数据中1类或多类);统计库主要由基础数据根据统计指标进行组合统计所建立的结果库;主题库则是基于各类业务模型驱动,从特定的业务维度切入,将模型所需的各关联数据元素进行统一分类存储。商务信息资源的统一划分和归集,可为上层数据查询和模型分析,避免数据的重复浪费和互锁,提供稳定的数据框架。

采集层:该层主要实现对各类商务关联数据进行统一的采集存储,采集来源包括局内部系统、信息资源共享平台、企业、互联网数据,采集方式包括应用系统接口调用、网络抓取、标准web接口,手工录入或批量导入。采集后的原始数据经过特定规则处理后,根据数据结构化特征存储到关系型数据库或基于Hadoop的HBASE中。

基础层:依托于市电子政务云平台,为大规模数据处理和并发应用提供强大的计算、存储、网络基础环境及数据库。

3.2技术方案特点

采用云计算的部署模式,把数据平台放在东莞市统一电子政务机房,由市*统一提供物理资源,并负责平台运营及安全技术等,切实提高数据的安全性,保障平台的运作安全性、快捷性和易用性。

此外平台通过调用大数据引擎采用国云科技股份有限公司自主研发大数据引擎GD-PUMA产品,以完成多源异构数据采集、存储、处理;根据业务应用需求,通过并行计算框架支持高并发数据查询及模型的迭代学习演进;由大数据引擎数据的高可用环境和分布式计算调度,保障系统没有单点。

3.3技术方案部署

商务大数据统计

商务大数据统计将统一部署到市电子政务云平台。市电子政务云平台网络部署有两个区域即DMZ区及服务器区,其中DMZ区属于隔离区可外网访问及内网受限访问、服务器区通过光纤直连商务局内网。商务大数据统计不仅为*商务相关职能部分提供服务,更对公众、企业、行业提供服务,平台将分别在服务器及DMZ区部署。由电子政务云平台提供基础资源和数据库服务。

大数据引擎、消息服务系统、认证服务器、工作流管理等核心组件部署到服务器区,充分保障部署的安全性。web服务器、及各应用服务器分别部署在两个区域,其中DMZ区一般只授权为浏览访问。核心工作组件中消息总线负责数据交换路由、大数据引擎负责分布式任务调度,均采用冗余设计;平台数据由服务器区定期通过同步工具秒级更新到DMZ数据域;部署在DMZ区域的商务大数据统计主要为数据对外发布使用,核心采集处理业务均在服务器区完成。

4.成果展示

平台已经构建完成,经过推广与试运行,具备了网页端、手机APP应用端的推广条件,平台主要实现了以下功能。

构建了一套商务大数据采集手段。通过对国家、省市的垂直系统及局内自有系统,市政务信息资源共享平台,企业及市场数据在线上报接口,第三方官方权威商务数据发布系统等三方面的商务数据和信息汇集,构建了一个商务基础信息库。

商务大数据统计

建立了”1库+1平台+1门户+15类子应用”的平台模式。明晰商务工作指标与全市GDP核算之间关系,以加强商务指标统计为立足点,梳理26类具体工作指标,形成了商贸流通、对外贸易、利用外资、口岸统计、综合数据、电子商务等6大数据资源池。

商务大数据统计

实现了商务数据可视化展示。制定的报表数34大类,涵盖外资利用、外贸进出口、社会消费、口岸通关、电子商务、城市综合体、转型升级等方面的分类和汇总统计,实现了商务数据分析的图表可视化展示。

商务大数据统计

移动化商务经济运行指标数据。建立了全市14个商务业务系统的数据共享渠道,平台自动运算,数据就会自动更新。同时,可以通过网页端、手机,随时随地查看最新的商务统计数据,全面掌握全市经济运行情况。

商务大数据统计

加强了薄弱环节统计工作。一是增加“一带一路”沿线国家贸易数据统计,可以及时了解沿线各个国家的投资、贸易情况;二是加强加工贸易转型升级指标建设及分析,通过平台就能直观的发现运行走势及存在问题;三是通过建立各类商贸流通数据模型,比如商贸流通、消费市场及东莞老字号等经营数据,可以对商贸流通情况进行实时的统计分析,进一步为强化经济走势分析提供强有力的支持。

商务大数据统计

掌握了商务经济运行情况和发展规律。基于平台开发相关经济分析模型算法和商务信息资源库,结合的商务领域数据及模型,在经济模型分析结果的基础上,建设商务智能统计分析的频度类型和专题类型的报告,为各级商务部门提供集信息发布、业务管理、市场监测运行、*决策支持、企业运行及风险预警服务等。

商务大数据统计

第三部分 项目总结

1.效益分析

东莞市商务大数据统计部署在东莞市电子政务办云平台,由电子政务云平台提供基础资源和数据库服务,保障平台在物理及逻辑运作的安全性、快捷性和易用性;基础设施由全市统一免费提供。该项目是财政性资金按公益型建设项目,故其收益主要来源于为服务对象带来的间接收益。

1.1成本节约效益

一是人力成本、统计分析、数据应用成本的降低。例如:这块据初步估算,仅33个镇街商务机构平均每个单位即相对减少一个人工的成本,如果按照每人每年8万元的成本计算,33个单位每年将节约人力成本约264万。随着平台的建成和普及使用,商务局及各镇街商务机构传统的企业调研费用,包括交通费用、通信费用、招待费用、纸张费用等费用将大幅度减少,据初步测算,平均每个基层单位每年节约的调研费用约为10万元,33个基层单位每年共节支330万元,综上所述,仅33个基层单位每年最少可节约经费:264+ 330=594(万元/年)。

二是通过项目建设,有利于规范统计队伍建设,提升我市商务信息化整体水平。改变现有的粗放式统计方式,适应商务部统计工作需要。通过建立商务信息资源的标准规范,建立统一的商务数据归集利用机制,实现商务信息资源处理的流程化、规划化、制度化,将复杂的统计分析过程转变为直观可理解的数据操作步骤,将依赖于经验的统计方式向依赖于平台的工作方式转变,提升商务系统统计工作人员专业化素质,提升统计队伍工作能力。随着平台应用工作不断推进和深入,信息资源将不断积累、分析成果不断丰富,平台将成为商务机构开展政务服务的主要“智囊”,以数据驱动不断提升商务信息化水平。

1.2社会效益

一是通过商务经济研判模型给*经济决策的科学性、客观性、有效性方面带来宏观经济价值。平台的建设实施将向企业提供外贸发展经济动态、进出口国家贸易政策法规,国内外市场及消费分布、热点、趋势,并针对重点国际区域提供定向数据分析报告,协助企业拓展市场空间,增加产品销量,同时提前推送各类公平贸易、贸易摩擦事件,避免企业经济损失,有利于拓展企业市场空间、避免经营风险;通过平台多方采集归集市场运行信息,通过宏观和微观分析预测方式,挖掘经济发展规律特点和内生动力,带动企业转型升级,促进经济发展方式转变和产业升级,其宏观经济价值难以估量,其将辅助*科学决策,带动产业经济发展。

二是有利于打造信息共享形态,打造商务大数据统计典型示范。平台通过构建市、镇两级外贸、外资、内贸等数据,建设政企互动,企业数据上报及在线问卷调研,基于该类调查了解企业的共性及个性需求,企业自愿上报了解企业经营动态,通过数据的比对分析,掌握企业未来动向,及时向企业推送商务资讯和市场分析运行报告等信息服务。平台依靠镇街办、口岸办联动,转变信息开放共享方式,扩充数据信息来源广度和深度,以大数据分析为手段,基于平台企业信息资源库多维度信息,了解和剖析企业整体和个体真实需求,推进*职能转变,将企业总体商务信息及分析报告向企业主动推送,让企业切实感受到*关心企业、服务企业、扶持企业的用心,树立*良好社会形象和公信力。

2.经验与教训

东莞市商务大数据统计项目严格按照招投标程序开展工作,在监理规范下开发实施,并如期进行平台初验和终验,交付了平台。在平台实施过程中,实现:重调研,挖需求,分阶段,管过程,推培训,亮成果,也总结了相关经验与教训,例如在整合归集商务系统业务数据源时,面临业务系统众多,管办职能部门多,数据类型多样,频度更新不同,数据质量不高等,此类问题需要在一开始就学习商务业务口径知识,并结合商务相关经济统计制度知识理顺业务系统里的商务指标,这个项目团队增加了平台业务系统调研、整合设计及开发难度,项目组采取了建立执行组织机构,开发人员驻场在东莞商务局客户现场,边建设边沟通边反馈,逐渐明确明晰了商务业务源系统信息采集方式、流程、数据格式、上报周期,协调业务系统对接人确定各信息系统之间交互接口标准,对外提供的信息服务方式,信息的发布审核流程,形成了一套行之有效的业务系统数据源采集子系统和办法。

在企业信息资源库的建设中,构建来东莞市商务局对东莞市商务经济运行情况的宏观、中观和微观的全面了解和掌控,实现对全市外贸、外资、内贸企业信息的整合,形成外资、外贸、商贸流通、高新技术企业、上市企业、企业“走出去”等集成的多维企业信息数据库,平台建立了企业主体信息识别算法,把对外贸易的海关进出口企业、加贸企业,利用外资的合同外资和实际外资企业,商贸流通的企业,部分内资企业,电商企业,上市企业等进行识别归类,同时也纳入企业的工商、税务、社保、科技、统计等企业经济运行信息,建立东莞市全市商贸企业在外贸、投资、内贸等经济运行情况总体宏观画像,对各类企业所属产业行业的发展及程度情况进行中观研判,对企业月度季度年度经营情况、发展形势和历年趋势情况进行微观精准把控。

3.项目创新点

实现一套东莞市外贸、外资、内贸等企业信息的整合的企业主体信息识别算法,对企业经济运行情况的全面动态跟踪及风险预警;

实现东莞一类经济发展指数:加工贸易转型升级指标建设及分析,直观发现企业转型升级过程中的总体运行走势及存在问题;

实现基于东莞20多年的外贸数据及相关经济指标数据,构建了一个外贸发展的研判预测模型,积极辅助相关职能机构对东莞外贸经济发展走势的把控;

基于平台提供的宏观中观的商务信息资源库和微观的企业信息资源库,构建大数据看东莞商贸运行的外贸、外资、内贸等月度、季度和年度的产业、行业及专题类等分析服务报告,全面服务于东莞市经济运行发展态势需要。

4.项目负责人点评

以东莞商务局大数据项目为背景,利用ETL思路提出商务数据采集清洗处理与统计分析模型相结合的数据应用方法,针对区域商务数据进行采集、筛选、清洗、整合、分析。

在ETL数据集成过程中,选择数据分析理论与项目实际相结合,实现了商务异构多源数据的采集整合与处理,解决了商务数据分析挖掘的难题,为东莞区域商务经济分析预测提供了大数据支撑。

实际应用效果得到东莞商务局业务单位用户的一致好评,未来将面向其他地区同类客户推广复制东莞经验。

第四部分 专家推荐

在商贸流通统计领域,没有一种既能满足微观的异构数据处理转换整合,又能执行宏观统计分析模型,还能多维可视化展示的统计系统;面向具体项目提炼数据处理规则与数据分析模型,总结数据映射方法并通过软件工程设计实现数据处理分析系统,具有市场价值。

利用ETL思路提出数据属性处理与统计分析模型相结合的数据模型,探测统计分析模型在数据分析业务的准确性,有效提高了商贸流通统计分析效率与数据利用率。