1 引 言
“金税工程”二期建设中,山东国税系统各类应用系统数据模式采用市局集中或省市分别存储的“集中加分布”方式,数据资源分布在各市局,应用系统经过多年的运行,一方面各市局积累了较多的历史数据,另一方面由于数据分布模式的原因,省局对全省数据尚不能进行全面的综合处理分析。因此,针对现在的数据模式,进一步提高数据集中度,实现异构数据库数据资源的有效整合和分析利用,成为信息化建设的主要课题。2004年以来,我们在省局建立了全省统一架构下的税务综合数据处理分析平台,完成了多种主要应用系统的数据集成,建立了省级综合数据中心和数据展现平台,为全省数据处理分析工作的全面开展提供了技术保障。
2 数据处理分析平台设计思路
2.1 项目介绍
山东省国税局数据处理分析平台建设,主要基于以下目标考虑设计:
2.1.1 解决信息孤岛问题
将分散的21个应用软件涉及的涉税数据经过清理、整合、汇总后,通过广域网集中加载到省局,形成省局综合数据库和数据仓库,构造统一的全省数据处理分析和信息发布平台,便于统一对各类数据进行有效的处理、分析和利用,统一进行数据展现。
2.1.2 数据处理分析与监控
在省局建立综合数据库和数据仓库的基础上,建立起数据处理分析和监控系统,对全省综合征管软件、增值税专用发票管理等现有各类涉税数据进行处理,通过业务查询、数据统计、数据分析、数据展现等功能,提供有效的分析和监控手段,达到辅助决策和管理的目的,为全省国税系统搭建起数据处理分析的应用平台。
2.2 系统设计思路
针对数据分散的现状,现阶段是在保证集成性、完整性、一致性和安全性原则的前提下,将分布在各市局的数据集成整合到省局,实现数据转换、信息传输、事务处理和消息收发。在省局借助信息交换平台,建立起各信息系统之间信息的统一表示、统一存储、统一传输、统一应用完整框架,实现现有应用系统整合,达到全网数据综合处理分析和增值应用的目标,我们用商业智能技术,将RDB-ODS-OLAP-BI有机结合在一起,进行系统设计和开发。
3 ODS与OLAP应用分析
商业智能(Business Intelligence)技术并不是一项特定的基础技术或者产品,它是一个综合的概念,是数据仓库DW(Data Warehouse)、联机分析处理OLAP(On-Line Analytical Processing)和数据挖掘DM(Data Mining)等相关技术走向商业应用后形成的一种应用技术。
3.1 操作型存储ODS
数据仓库是面向主题的、集成的、稳定的、随时间不断变换的数据集合,我们数据处理分析平台的建设正好符合数据库仓库的特征,其业务多是面向税收业务的分析主题,如入库、欠税、多缴等主题,是对历史数据的综合和提炼性分析,对系统实时性要求较低,但每次加工分析数据量较大,是一种典型的面向分析的以分析型驱动的业务需求。
省局实现数据集成后,有些数据处理是基于操作型和分析型之间的,如对省局重点掌握的2300多户重点税源纳税人的分析,既需要汇总统计数据,又要对部分重点纳税人明细数据进行监控,是一种操作型和分析型相结合的业务。为此,我们提出了在省局建立ODS的设计思路。
ODS(Operational Data Store)是一种操作型数据存储,是全局式数据仓库,是多种异构数据库数据的集成和汇总,既有部分明细数据,也有粒度较高的综合数据,具有4个基本特征,即面向主题的、集成的、可变的、数据是当前或接近当前的。ODS具有数据仓库的主要特征,ODS数据的组织方式也是面向主题的,而且是要与在RDB中的数据保持高度一致,对进入ODS的数据也要进行数据集成和转换,这是与DW一致的,但它要存放当前接近当前的数据,而且要进行实联机的修改操作,这也是区别于DW的特点,利用ODS可以达到“实时OLTP”(up-to-second OLTP)的功能。
我们将建立的ODS在结构上处于OLTP和数据仓库中间的地位,它用于存放数据从市局抽取后、转换到省局数据仓库之前的综合性和明细数据,将抽取后的数据转换工作放在ODS进行,利用企业应用集成EAI(Enterprise Application Integralion)技术对数据抽取的时间、状态、抽取标识等进布己录,以便下次抽取或对不成功的抽取进行重置或回滚,将经过转换和整合后的数据加载工作在ODS中完成,形成RDB(各市局)-ODS(省局)-OLAP(省局)三层体系架构,省局ODS采用Sybase12.0构建。
3.2 OLAP服务器
在我们设计方案中,数据仓库的作用是利用Essbase OLAP多维模型(多维数据库也称之为数据集市)来实现多维分析,存储和管理多维数据库或多维高速缓存,同时也支持多种关系数据库的访问。把汇总数据以OLAP格式存储到多维数据库中,而将粒度低的明细数据存储在操作数据存贮ODS中,当需要详细明细数据时,可通过访问全局的ODS实现。
在数据集市层面提供的信息系统结构使得对数据的访问非常灵活,可以用多种方法对数据进行切片、分割,动态地考察汇总数据和细节数据的关系。多维数据库非常适合数据处理分析统计工作的需要,其与ODS是一种很好的互补关系。OLAP多维模型的采用使得实现静态报表、动态查询、多维在线分析等多种功能相对非常简单。
在数据集市的数据存储方面,对于报表和数据挖掘模型,数据存储在关系型ODS中;多维分析模型的数据存储在多维数据库中,其数据表要求被组织成星型或者雪花型模式,以支持多维分析。
4 系统总体架构
根据以上设计思路,数据处理分析系统总体架构如图1所示:
由上图所示,该项目不仅仅涉及数据仓库的建设,其关键之处还有是基于广域网上的上下级之间的数据集成与交互,是更深层次上的数据整合和处理应用平台的建设,因此其主要架构可以归纳三个平台的建设,即数据交换平台、数据中心平台和数据展现平台。数据交换平台建设采用Infor EAI(企业应用集成)技术实现数据从各市局分中心到省局数据处理中心的数据集成。数据中心我们采用ODS+DW(操作型数据库加数据仓库)相结合的方式实现明细、综合与多维数据的存储,数据展现平台采用BI Taxation Office商业智能工具,利用其多种数据分析和统计模型从多个维度进行展示。
系统主要有以下几个特点:
(1)数据库与数据仓库技术OLTP与OLAP技术相结合。对各类数据的实时监控分析,对明细数据的查询监控,直接对数据库进行访间,采用OLTP技术实现。对历史的、按不同粒度以及不同维度汇总数据的监控分析,一般先将数据抽取到ODS中,再加载到多维数据库中,采用OLAP技术访间ODS和多维数据库。
(2)JSP编程和商业智能工具展现技术相结合。对一局式监控分析、一户式监控分析、数据质量分析等难以用几张报表进行展现的综合业务监控模块,采用JSP直接编程。对相对固定的报表和多维模型,采用商业智能工具展现。
(3)省局集中部署和各市局分布部署相结合。将一局式监控分析、一户式监控分析、数据质量分析等直接访问市局ODS明细数据的模块,部署在市局应用服务器上,将访问省局ODS和全省多维数据库的模块,部署在省局应用服务器上。
5 数据处理平台功能介绍
5.1 基于税务主题的数据组织
确定好系统设计架构后,在对业务需求整理时,要根据税收业务的性质,划分业务主题,主题分析是典型的数据立方的概念,适用通过OLAP完成,实现多维的数据展现,包括上钻、下钻、切片等。下面以对入库税款这个主题进行分析,说明OLAP设计思路。
在主题数据表的框架确定下来后,还需进行以下数据组织工作:
(1)定义主题数据表的各个基础数据项。
(2)定义各个基础数据项经过运算所产生的常用税务指标。
(3)定义各个指标的常用分析口径。
(4)定义主题事实表对应的分析维护表。
分析指标:合计、申报入库、预缴、临时征收、查补入库、没收非法所得、清欠入库、罚款、滞纳金、复议入库、划入、划出、外部检查入库。
分析维度:税务机关、入库日期、登记注册类型、行业、征收项目(增值税、消费税、所得税…)、纳税人类型(非增值税纳税人、增值税一般纳税人、增值税小规模纳税人、增值税个体工商户)等。其中税务机关维和行业维可以继续代码细化,是雪花型维度,其他均为星型维度,如表1。
5.2 数据展示平台
数据展示发布平台是直接面对最终用户,其灵活性和功能性直接影响系统的使用效果,我们采用Fenet公司开发的BI工具BI Taxation Office3.2进行数据展示平台建设。BI Office集成了各种在线OLAP分析和统计方法,可从多种观察角度,从前面数据平台的ODS或OLAP多维数据库中实现数据的统计、挖掘、分析,通过对测性分析、随机查询、即席报表等多种分析手段,快速地洞察业务问题及变化趋势,致力于知识的自动发现,结合多种数学分析模型在更高的层次上为用户提供决策辅助支持。
利用BI Office,我们已经实现的预测模型有:(1)时间序列预测法:将预测指标的历史数据按照时间顺序排列成时间序列,然后分析它随着时间的变化趋势,外推预侧指标的未来值;(2)多元线性回归预测法:是研究某一个预测指标与多个因子之间的相互关系,并由回归分析求出预测指标受因子影响的线性关系式,以此来预测预测指标未来几期的值;(3)时间序列平滑预测法:主要用于在难以找到影响预测指标的因子,或者即使找到了,也可能存在因子缺乏必要的数据支持的情况下,通过分析预测指标随着时间的变化趋势来预测指标的未来值;(4)多元回归预测法:则主要用于已知影响预测指标的因子并具备因子的支持数据的情况下,通过回归分析求出预测指标受因子影响的线性关系式,以此来预测预测指标未来几期的值。
实现的统计分析:有80/20集合分析、绝对值分布分析、比重分析、异常值分析、中心趋势分析、离散趋势分析、80/20区间分析、TOPN分析、强度分析、平衡性分析、基比分析、环比分析、增长率分析等。
5.3 处理平台主要功能
模型建立完成以后,将其部署到基于EAI建立的数据交换平台上运行,完成了将综合征管软件到数据处理分析系统的数据抽取,整个过程用基本不需要编程,只需要利用工具进行可视化的建模和配置即可完成。当数据处理分析系统收到登记纳税人信息的数据以后,即可利用BI展现工具,将不同的分类统计结果以各种方式输出,以便进行不同角度的监控和分析。现已实现的主要功能有:一局式分析、一户式分析、税收主题分析、税收统计分析、税收与经济关系分析、重点税源分析、数据质量分析等,利用数据处理分析平台,我们可全面掌握全省国税系统税源管理和收入的各种情况,并利用数据处理结果,及时进行预测分析,强化管理,增强决策的科学性和有效性。
6 结束语
我们在利用EAI技术建立全省数据集成和数据交换平台的同时,实现了现有数据市局分布模式下全省综合数据的省级集中,在此基础上利用ODS、OLAP和BI Office对数据进行处理、统计、分析、展现,完成了数据交换平台、数据中心平台和数据展现平台三个平台建设,主要应用系统数据得到有效整合,数据的综合利用率得到大幅度提升,为省级数据处理和分析工作搭建了统一的应用平台,其实现思路对其它行业实现数据整合和分析应用也有很强的借鉴意义。