数据标准化方法论思考总结

时间:2024-03-29 22:20:54

数据标准化总结

元数据管理

目录式实现 VS 词素管理

目前各个公司或多或少都存在数据标准问题,英文名称中后缀相同,中文名称不同;英文……而且随着业务数据的增加,数据标准问题会像滚雪球一样越积越多。
基于越来越多的数据标准问题,目录式管理元数据(IBM目前就是目录式的),元数据语义层和数据模型建模的关联很弱。
我们想,在一般的目录式整理规范 很难将越来越多的业务数据标准化时,是否能够找出一种新的方法将业务数据一一规范起来。

应对策略

后面,我们发现很多东西实现原子化之后就很好解决,比如,在规范业务术语时,将业务术语用词素拆分的方式拆分成一个个原子化单词,在一个企业中真正原子化的业务术语是非常非常少的,将这些未数不多的原子化的单词进行定义之后,我们可以组合出更多的业务术语。
数据标准化方法论思考总结
但是,要对业务数据进行统一标准化,必须制定数据字典,从标准化开始做起,在这里标准化,第一个是将业务术语分解成词素,从词素种提取出原子化的标准单词。第二对单词进行定义。一个单词只能有一种业务含义,这样一一对应,英文单词也只有一个。
最后用标准单词组成业务术语的标准名称。
数据标准化方法论思考总结

数据字典方法论

基本概念

数据标准化方法论思考总结
数据标准化方法论思考总结

数据标准的小例子

数据标准化方法论思考总结

数据标准化实施步骤

数据标准化方法论思考总结

1. 标准化对象收集

数据标准化方法论思考总结

2. 词素拆分

词素拆分通常会在excel模板中进行,首先为参与人员讲解如何判别词素,之后由人员分工操作,分别进行词素的拆分,之后大家分工的词素拆分结果合并在一起进行整合,再讨论和确认。

3/4.标准单词、标准用户定义

数据标准化方法论思考总结

基础数据与指标数据标准化

数据标准化方法论思考总结

QA

  • 词素拆分的理解,词素拆分这样的话有个延伸问题,词素拆分这样的方式是中国创造的还是来源于国外?
    词素拆分的来源:词素拆分的做法来源于东亚的做法。IBM在美国不拆,因为他们只用英语。 而且,对元数据的理念是不同的。IBM实现的效果是目录式的,元数据语义层和数据模型建模的关联很弱。
  • 词素拆分的出发点:
    词素拆分,以中文还是英文为基础出发?必须以中文为基础。
  • 词素和标准单词的区别
    词素和标准单词的区别是,标准单词是从词素中筛选出来的一部分。 词素是标准化项目实施的开始阶段的产物,但是得到标准单词之后就不再需要了。
    词素中的一部分,变成了同义词、也就是非标准单词;还有一部分,可以在项目中被判定永久弃用——例如一些业务对象的旧称谓、已经从业务上永远过时不再使用了,就可以不再去转变为标准单词了。 像我以前的项目中,一些老的系统还有“传呼号码”这样的业务名称,但是客户确认之后,说传呼以后再也不会使用了,就可以在词素工作阶段直接抛弃了。
  • 状态在数据字典中是否可以作为一个标准用语?
    状态是一个词素,但是不能是一个标准用语。状态在不同的业务里代表不同的含义,比如在考试业务里,可以表示为考试状态(考试开始,上传,考试结束)。比如在设备使用业务里,可以表示为使用状态(闲置,使用中,报废)。所以在设计表及列的时候用根据业务在状态前加业务前缀。

指标数据标准化

数据指标体系是数仓建模的核心,也是多维分析的基础,构建一个合理完善的指标体系,数仓才能更好的提供数据、输出价值,使用数据指导业务的效率也会成倍提高。
指标体系就是将各类数据指标维度成体系的关联起来,按照具体的业务板块与业务过程,将指标按照不同的特点、属性及维度进行分类分层。
数据指标常用于指导运营决策、评价产品业务的优劣。通过对数据指标的拆解能够得出产品、策略、运营等各方面目前存在的问题以及优点,从而得出改进的方向。
非体系化的指标通常是单点分析,无法将更多关联指标联系起来做全局的分析,而体系化的指标则可以将不同的指标维度综合起来起来进行全面的分析,会更快的发现目前产品和业务流程存在的问题。

数据治理的一些链接

链接: link.
学而思网校数据指标体系建设实践.
【袋鼠云数据】数据中台专栏(三):数据质量分析及提升.
数据中台的质量管理.
l数据质量检查.
普元数据】企业数据标准规划、建设和应用1.
普元数据企业数据质量管理核心要素和技术原则.
普元数据数据标准在管理信息系统中的应用.
普元数据数字化转型下的自动化大数据治理.
【物流IT圈】大数据平台下的数据治理链接.