取数是数据人成长的一个起点,任何数据团队培养新人,最好从取数开始,但取数又不能做太久,因为天花板不高,连续干2-3年足矣,再干下去就会单调重复,影响职业发展,但要从取数这个”局"中突围似乎并不容易。
大鱼是取数的过来人,这里就讲讲我突围的故事,共涉及四段经历:
(1)入职1年,刻意练习,追求更快更好
(2)入职2年,独当一面,负责核心取数
(3)入职3年,能力升级,转型报表开发
(4)入职4年,架构掌控,升级取数引擎
1、入职1年:刻意练习,追求更快更好
我比较好胜,也算勤奋,跟着师傅熟悉了基本的取数套路后,包括工具、宽表和脚本,就琢磨着如何取得更好更快。
取数大多依赖现成的宽表,但宽表很多时候也取不出数来,必须找到宽表的上游,这就需要去研究宽表的生成代码,然后顺藤摸瓜的熟悉上游的基础表。
可能别的取数人员只要熟悉几十张宽表就可以了,而我那时就掌握了几百张基础表,这几乎是数据仓库的所有。
有时候掌握了基础表也还不够,还要追溯到业务系统的原始表,这就得求助业务系统的开发人员,但开发人员有时也要翻看源代码才能搞清楚,这个很费时间,我不太喜欢求人,就追着要了源系统的设计文档和PDM,然后自己研究自己取。
总体来讲,取数是规则相对明确的工作,只要勤奋一点就能达到很高的水平,一年后,我的取数水平就处于团队的顶尖,一般的取数应对绰绰有余,就是非常复杂的取数,也往往自己解决,很少去问师傅。
很多人取数了多年,水平不见涨,总结下来的原因就二个:一是不感兴趣,不上心,应付了事,这是责任心问题;二是点到为止,觉得够用就行,这是缺乏主动学习能力。
2、入职2年:独当一面,负责核心取数
取数人员经常担心工作成绩不够显现,这是个错觉,但凡有点特质的员工,领导都会看得一清二楚,合适的人总是会被放到合适的岗位。同样的取数工作,你负责的部门与他负责的部门,重要程度是不一样的,这里就已经拉开了差距。
进入公司的第二年,原来负责市场部取数的同事被调走做数据仓库,领导就安排我去接替他的工作,而市场部的取数是最多最复杂,也是最紧急的。
有次我跟市场部三个主管沟通一个营销案的测算需求,涉及到几十张表格上百个指标的取数,这些指标口径是全新的,意味着传统的那些宽表无法直接满足要求,必须全部从源头开始取数,难度很高。
我当场确认完毕,还拒了很多需求,后来市场部对不能做的指标找了业务系统的开发人员确认,发现我说得全对。
最风光的一次是某一年的KPI指标的取数,我一人赴会,游刃有余的面对着20多位分管各业务线的人员沟通需求,那是职业生涯高光的时刻,取数的口碑就这样建立起来了。
后来成为管理者后,有些取数人员会来抱怨业务人员每次取数都要加急,而且不讲理,我说这里有个信任度的问题,他们对专家就不敢这么扯皮。
把业务人员当甲方,别人说什么就做什么,自己没什么观点的,虽然不能说是无效的勤奋,但思维是懒惰的,自然无法让人有什么敬畏之感。
3、入职3年:能力升级,转型报表开发
这一年由于负责报表的同事离职,我开始去做报表开发。如果说取数是野战军,不太讲规矩,那么报表就是正规军,做事开始要一板一眼了。
报表开发涉及到数据的采集、开发、上线和运维,同时还涉及前端的展示和BI的一些工作,相对于很多取数人员只会一些SQL,开发报表能接触的技术栈就多多了。
我负责的是公司的财务报表,那是一分钱也不能少的差事,经常熬夜出账稽核,但正是这段经历,让我对数据的及时性、准确性、一致性有了更深刻的认知,以后再做其他类似的工作,就会觉得云淡风轻。
在做报表开发的同时,大鱼会接到一些KPI指标异动分析的任务,然后出一些简单的分析报告,这样就熟悉了趋势分析、结构分析、对比分析等分析方法,后来还成了部门的数据分析师,会跟着领导去公司做汇报。
从取数到开发,再到分析,每次领导对我的工作调整,看似偶然,其实是基于能力的一个判断,否则有了机会也不会给,而我相对别人的优势,开始的时候仅仅是那一点点取数的优势。
4、入职4年:架构掌控,升级取数引擎
报表和取数对技术的要求都不太高,因为它们都是在现有的数据仓库基础上做的一些应用,数据仓库才是最根本的东西。
进入公司的第四年,我有机会参与公司数据仓库的重构工作,从数据仓库平台的选型、集成,再到数据的采集和建模,最后再到BI,都有所涉猎,做了数据仓库后,我的视野宽阔了很多,并且能从根子上去解决取数的一些问题,包括
原来取数依赖的模型表都是月为周期的,后来就搞了一套日的仓库模型;
原来取数依赖的模型宽表不超过100个字段,后来就搞了很多超级宽表;
原来取数都是在DB2上进行,后来就搞了专门的一体机取数;
原来取数都是依赖人工,后来就开始搞自助取数;
......;
这个时候,大鱼已经从一个被取数引擎牵着鼻子走的取数者,转变为一个能够主动优化取数引擎的创造者。
现在大鱼成为了一名管理者,取数的经历让我知道很多人不知道的”秘密“,数据管理就有了很多的底气,比如:
我知道自助取数的价值是限的,因此不会人云亦云,盲目投入;
我知道取数的边际效益不高,因此不会以速度追求口碑;
我知道取数长了会造成惰性,因此总是适时的调整下属岗位;
我知道限制取数速度的原因很多,因此会强调机制,流程一起抓;
我知道取数是数据探索的保障,因此要求数据分析师必须自己动手;
......;
没有取数经历,对于数据人来说不是完整的人生,但数据人不能仅有这样的人生。