数据源、数据集、同步任务、数据仓库、元数据、数据目录、主题、来源系统、标签、
增量识别字段、修改同步、ES索引、HBase列族、元数据同步、DS、ODS、DW、DM、zk集群地址
==
数据源
数据源是指数据库应用程序所使用的数据库或者数据库服务器。
数据源(Data Source)顾名思义,数据的来源,
是提供某种所需要数据的器件或原始媒体。
在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,
通过提供正确的数据源名称,你可以找到相应的数据库连接。
1. databaseName String数据库名称,即数据库的SID。
2. dataSourceName String数据源接口实现类的名称。
3. description String 对数据源的描述。
4. networkProtocol String 和
服务器通讯使用的
网络协议名。
5. password String 用户登录密码。
7. serverName String数据库服务器名称。
如果数据是水,数据库就是水库,数据源就是连接水库的管道,终端用户看到的数据集是管道里流出来的水。
数据源名称(data source name,DSN)是包含了有关某个特定数据库信息的数据结构,这个信息是
开放式数据库连接驱动能够连接到数据库上必需的信息。DSN存储在注册表或作为一个单独的文本文件,DSN里面包含的信息有名称、目录和数据库驱动器,以及用户ID和密码(根据DSN的类型)。开发人员为每个数据库创建一个独立的DSN。为了连接到某个数据库,开发人员需要在程序中指定DSN。相反,没有DSN的连接则需要在程序中指定所有必要的信息。
有三种类型的DSN:用户DSN(有时也叫作机器DSN)、系统DSN和文件DSN。用户和系统DSN都根据具体计算机而有所不同,DSN信息存储在注册表中。用户DSN允许单个用户在单个计算机*问数据库,系统DSN允许在某个计算机上的多个用户访问数据库。文件DSN在一个以.DSN扩展名结尾的文本文件中存储相关信息,并且可以被安装了相同
驱动器的不同计算机上的多个用户共享。
不管通过何种持久化技术,都必须通过
数据连接访问数据库,
Spring在第三方依赖包中包含了两个数据源的实现类包,其一是Apache的DBCP,其二是 C3P0。可以在Spring配置文件中利用这两者中任何一个配置数据源。
DBCP
DBCP类包位于 /lib/jakarta-commons/commons-dbcp.jar,DBCP是一个依赖 Jakarta commons-pool
对象池机制的
数据库连接池,所以在类路径下还必须包括/lib/jakarta- commons/commons-pool.jar。
C3P0
C3P0是一个开放
源代码的JDBC数据源实现项目,它在lib目录中与Hibernate一起发布,实现了JDBC3和JDBC2扩展规范说明的 Connection 和Statement 池。C3P0类包位于/lib/
c3p0/c3p0-0.9.0.4.jar。
ODBC
ODBC(Open Database Connectivity,开放数据库互连)是
微软公司开放服务结构(WOSA,Windows Open Services Architecture)中有关数据库的一个组成部分,它建立了一组规范,并提供了一组对数据库访问的标准API(
应用程序编程接口)。这些API利用SQL来完成其大部分任务。ODBC本身也提供了对SQL语言的支持,用户可以直接将SQL语句送给ODBC。一组数据的位置,可以使用 ODBC
驱动程序访问该位置。
==
数据集
数据集,又称为
资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。
每一列代表一个特定变量。
每一行都对应于某一成员的数据集的问题。
它列出的价值观为每一个变量,如身高和体重的一个物体或价值的
随机数。
每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
==
数据仓库
数据仓库,英文名称为Data Warehouse,可简写为
DW或DWH。数据仓库,是为
企业所有级别的决策制定过程,提供所有类型数据支持的战略
集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
==
元数据
元数据(Metadata),又称中介数据、中继数据,为描述
数据的数据(data about data),主要是描述数据
属性(property)的
信息,用来支持如指示存储位置、
历史数据、
资源查找、文件记录等功能。元数据算是一种
电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
基于应用,可以将元数据分成以下的若干种。
数据部署:数据集的物理位置;
数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;
质量度量:数据集上可以计算的度量;
度量逻辑关系:数据集度量之间的逻辑运算关系;
ETL过程:过程运行的顺序,并行、串行;
数据集
快照:一个时间点上,数据在所有数据集上的分布情况;
星型模式元数据:事实表、维度、属性、层次等;
报表语义层:报表
指标的规则、过滤条件物理名称和业务名称的对应;
数据访问日志:哪些数据何时被何人访问;
质量稽核日志:何时、何度量被稽核,其结果;
数据装载日志:哪些数据何时被何人装载;
数据仓库
在
数据仓库领域中,元数据按用途分成技术元数据和业务元数据。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类
系统管理功能:
(1)描述哪些数据在数据仓库中;
(2)定义要进入数据仓库中的数据和从
数据仓库中产生的数据;
(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;
(4)记录并检测系统数据一致性的要求和执行情况;
(5)衡量数据质量。
元数据被定义为:描述数据的数据,对数据及信息资源的描述性信息
==
数据目录
数据库目录是
数据库服务器存放数据文件的地方,不仅包括有关表的文件,还包括数据文件和的服务器选项文件等。
以MySQL数据库为例,MySQL数据目录包含了服务器管理的所有数据目录,这些文件被组织成一个树状结构,通过利用Unix或Windows文件系统的层次结构直接实现。
每个数据库对应于数据目录下的一个目录。
在一个数据库中的表对应于数据目录下的文件。
数据目录也包含由服务器产生的几个状态文件,如日志文件。这些文件提供了关于服务器操作的重要信息。对管理特别在出了问题而试图确定问题原因时很有价值。例如,如果某个特定查询杀死服务器,你可以通过检查日志文件判别捣乱的查询。
==
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的
数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于
中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
==
TDIP中概念解释
数据源、数据集、同步任务、数据仓库、元数据、数据目录、主题、来源系统、标签、
增量识别字段、修改同步、ES索引、HBase列族、元数据同步、DS、ODS、DW、DM、zk集群地址
数据源:数据的载体,存储着数据的连接信息。可以是关系型数据库、文件系统等。
数据集:数据的集合。可以是一张表。
同步任务:完成数据的ETL(抽取、转换、加载)操作的任务。
元数据:描述数据的数据。 如数据库中字段的描述信息(是否主键、字段类型、长度) 为元数据。
数据目录:数据集的资源目录。一个数据集是一个目录。本产品主要指数据仓库中的表是一个目录,一个数据集。
主题:主题一般指大模块,专题。 如人员。可以作为一个主题。
来源系统:用来描述数据集的来源, 一般为数据源的名称。可以是一个系统平台,也可以是数仓的某一个层次(ODS、DW、DM)。 如"社区警务平台" 可以作为一个来源系统。 再如 "DW" ,可以作为一个来源系统。
标签:更细粒度的分类。如涉毒人员、涉稳人员、重点人员、在逃人员。都可以作为一个标签。
增量:增加的量。
全量:初始的量,为全量。
增量识别字段:通过一个字段,可以判断出数据有增加,这个字段,就是增量识别字段。一般为随数据增加而自增的字段。该字段用于实现同步任务新增数据的同步。
修改同步:同步任务中,修改了来源中的一条数据后,目标对应的数据也对应修改。这种就是修改同步。
ES索引:
HBase列族:
元数据同步:
DS:同ODS。 数据临时存储层。
ODS:数据临时存储层。
DW:核心数据层。
DM:数据集市层。
zk集群地址:
数仓标识:
SID:
==
==