大数据仓库对业务数据的几个基本要求
- 同步业务数据时,需要主键和业务更新时间
- 日志型数据需要有日志发生时间
- 业务数据发送到消息队列,需要带上主键和业务更新时间
- 同一个业务输出不同的数据时候,需要对输出的数据负责,保证提供的数据的字段、含义等统一、清晰
- 数据需要有对接人、负责人,对以上问题进行跟进维护。
如果业务数据没有主键,则在数据汇总时无法对数据进行排重和更新;如果没有业务更新时间,当数据量很大的时候,无法进行增量同步
为了保证业务的实时发现问题、跟进问题、解决问题,对数据的处理要求:
- 实时数据1分钟写
- 实时数据查询粒度:1分钟、5分钟、10分钟、15分钟、20分钟、30分钟、1小时...
- 离线数据 T+1