大数据项目架构

时间:2024-04-01 15:21:51

1 提高自信

云上数据仓库解决方案:https://www.aliyun.com/solution/datavexpo/datawarehouse

离线数仓架构

大数据项目架构

离线数仓特点
基于Serverless的云上数据仓库解决方案

架构特点

  • 开箱即用:简单几步开启自己的一站式大数据开发平台。
  • 低TCO:Serverless服务,免运维,降低企业成本
  • 资源弹性:根据数据规模系统自动扩展集群存储和计算能力
  • 强数据安全:多层沙箱机制防护与监控,备细粒度化授权

实时数仓架构

大数据项目架构

实时数仓架构特点
秒级延迟,实时构建数据仓库,架构简单,传统数仓平滑升级

架构特点

  • 数据模型基本不变
  • 消息队列取代传统数仓分层表
  • 订阅式实时计算取代调度式批处理

2 数仓概念

数据仓库的输入数据源和输出系统分别是什么?

输入系统:埋点产生的用户行为数据、JavaEE后台产生的业务数据、个别公司有爬虫数据。

输出系统:报表系统、用户画像系统、推荐系统

3 系统数据流程设计

大数据项目架构

4 框架版本选型

1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)

2)CDH:国内使用最多的版本,但 CM不开源,但其实对中、小公司使用来说没有影响(建议使用)10000美金一个节点 CDP

3)HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少

大数据项目架构

5 服务器选型

服务器使用物理机还是云主机?

1)机器成本考虑:

(1)物理机:以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,单台报价4W出头,惠普品牌。一般物理机寿命5年左右。

(2)云主机,以阿里云为例,差不多相同配置,每年5W

2)运维成本考虑:

(1)物理机:需要有专业的运维人员(1万*13个月)、电费(商业用户)、安装空调

(2)云主机:很多运维工作都由阿里云已经完成,运维相对较轻松

3)企业选择

(1)金融有钱公司和阿里没有直接冲突的公司选择阿里云(上海)

(2)中小公司、为了融资上市,选择阿里云,拉倒融资后买物理机。

(3)有长期打算,资金比较足,选择物理机。

6 集群规模

大数据项目架构

根据数据规模大家集群

大数据项目架构

7 人员配置参考

7.1 整体架构

属于研发部/技术部/数据部,我们属于大数据组,其他还有后端项目组,前端组、测试组、UI组等。其他的还有产品部、运营部、人事部、财务部、行政部等。

大数据开发工程师=>大数据组组长=》项目经理=>部门经理=》技术总监

7.2 你们部门的职级等级,晋升规则

职级就分初级,中级,高级。晋升规则不一定,看公司效益和职位空缺。

京东:T1、T2应届生;T3 14k左右 T4 18K左右 T5 24k-28k左右

阿里:p5、p6、p7、p8

7.3 人员配置参考

小型公司(3人左右):组长1人,剩余组员无明确分工,并且可能兼顾javaEE和前端。

中小型公司(3~6人左右):组长1人,离线2人左右,实时1人左右(离线一般多于实时),组长兼顾和javaEE、前端。

中型公司(5~10人左右):组长1人,离线3~5人左右(离线处理、数仓),实时2人左右,组长和技术大牛兼顾和javaEE、前端。

中大型公司(10~20人左右):组长1人,离线5~10人(离线处理、数仓),实时5人左右,JavaEE1人左右(负责对接JavaEE业务),前端1人(有或者没有人单独负责前端)。(发展比较良好的中大型公司可能大数据部门已经细化拆分,分成多个大数据组,分别负责不同业务)

上面只是参考配置,因为公司之间差异很大,例如ofo大数据部门只有5个人左右,因此根据所选公司规模确定一个合理范围,在面试前必须将这个人员配置考虑清楚,回答时要非常确定。

IOS多少人 安卓多少人 前端多少人 JavaEE多少人 测试多少人

(IOS、安卓) 1-2个人 前端1-3个人; JavaEE一般是大数据的1-1.5倍,测试:有的有,有的没有。1个左右。 产品经理1个、产品助理1-2个,运营1-3个

公司划分:

0-50 小公司

50-500 中等

500-1000 大公司

1000以上 大厂 领军的存在

文章来源:尚硅谷大数据培训