“竞赛是我们招聘的主要渠道”——数据科学家与竞赛小咖畅谈

时间:2024-04-08 20:23:50

“竞赛是我们招聘的主要渠道”——数据科学家与竞赛小咖畅谈

2005年,宋宽在马里兰大学完成了博士开题,他的导师John R G Townshend(马里兰大学行为与社会科学院院长)请吃饭以作庆祝。吃饭时闲聊,宋宽问导师夫妇从英国辗转到美国,取得了诸多成就,两个孩子从小耳濡目染,肯定可以学到很多东西。可导师却马上摇头,“no, you don't teach your kids. you learn from them. you grow up with them.”这个回答让宋宽颇感意外,导师夫妇的学术成就斐然,可即使面对自己的孩子,也保持着谦逊的学习态度。这段对话对宋宽的冲击很大,此时他还不确定导师是谦虚还是真诚。

“竞赛是我们招聘的主要渠道”——数据科学家与竞赛小咖畅谈

宋宽博士与John R G Townshend教授合影

让他体味深刻的是回国后来自后浪的冲击。宋宽本科于北京大学城市与环境学系获得环境科学学士学位,从中国经济研究中心获得经济学双学士,毕业后前往美国深造,先后在俄亥俄州立大学获得遥感测绘硕士、在美国马里兰大学地理系和高级计算机研究院(UMIACS)联合培养获得博士学位,曾就职于美国大气海洋局,回国后加盟阿里云。面对国内充满活力的青年数据科学从业者,宋宽喟叹:“在阿里云天池工作,遇见不少年轻有冲劲有思想且技术拔群的算法选手,可谓四海英豪济济一堂。我当时想,在这些年轻人面前,你还装什么大佬?学都来不及!”在阿里云期间,宋宽多次担任天池算法大赛的赛题负责人及评委,后作为首席科学家加盟农业大数据领域的独角兽企业佳格天地。

19年初,佳格天地在DataCastle数据城堡上举办了一场命题为“地球物候的深度学习预测”的算法大赛,吸引了相关领域将近800名参赛者。3位选手从中脱颖而出,获得佳格实习机会,这是名副其实的百里挑一。他们分别是来自中国矿业大学的计算机硕士朱强,来自南京大学的物理硕士姜文聪,以及来自电子科技大学的数学硕士曹俊年。宋宽是这场比赛赛题与数据负责人,三位数据科学领域的新秀在获奖的同时,也获得了佳格的实习offer。

“竞赛是我们招聘的主要渠道”——数据科学家与竞赛小咖畅谈

佳格天地“地球物候的深度学习预测”算法大赛

时间跨度20个月,在2020这个变化与机遇并存的夏末,DC邀请宋宽博士与以上3位数据小咖,复盘他们从数据竞赛小白到大神的心路历程,聊聊对数据科学的心得与看法,希冀能给初涉数据科学领域的青年学子一些实用的建议。


1、聊经验

DC:什么样的竞赛对你们更有吸引力?

文聪:第一个当然是奖励了。第二个是比赛平台和出题方的专业程度。第三是自己的资源和能力。当初选择参与地球物候大赛时,先是因为这场比赛能够提供长期实习机会,这对于当时正在寻找实习工作的我来说很有吸引力。其次我查了下,主办方佳格天地做气象卫星大数据很权威。最后是硬件资源,当时我用来打比赛的只有一台笔记本电脑,而这场比赛相对来说对硬件要求没那么高。三者综合起来考量,我就选择了这场比赛。

俊年:我在报名时,主要考虑的是边学习边比赛,如果能取得好名次就更好了,所以选择赛题时也优先考虑与专业方向有关的,和数据图像相关的深度学习比赛。另一方面,会考虑出题方的专业度,很多比赛比着比着会改数据、改需求,很不好。但像佳格的比赛,在比赛时会给到baseline,这说明出题人充分验证过赛题。通过学习baseline,即使没能取得好成绩,我也能学到新东西。最后当然也是奖励了,去年三四月份我在找实习,这个比赛能够给优胜者提供实习机会,对我来说很适合。

朱强:我其实就打过这一场比赛,当时我读研究生在做类似的课题,在网上搜了下,发现这样一个比赛,和我的专业很契合,于是就参赛试试。

DC:可以分享给数据竞赛的参赛者们一些有价值的比赛经验吗?

文聪:我认为要取得好成绩,就要做到又快又准,其中快在前准在后。快,指的快速迭代;准,指的准确判断。在比赛中,我们可以选择的策略很多,但比赛时间很短,一般只有三个月,多一点四五个月,其实你是来不及做系统性的控制变量实验的,需要尽可能快的不断实验,所以有时候确实需要一些运气和灵感。我们为了快速尝试,需要看很多资料,而这些尝试有些时候没有结束,就要判断可能出现的情况,为下一步做准备了。总而言之,快速迭代,时刻观察,准确做策略,做好这三步就很容易出好成绩。

“竞赛是我们招聘的主要渠道”——数据科学家与竞赛小咖畅谈

俊年:参加比赛,其实就是做题,做深度学习方向的题。现在算法迭代得很快,各个领域都有自己特殊算法。如果想要在比赛中取得好成绩,在平时就要广泛涉猎,拓宽自己知识的宽度,不一定要很深,但是要知道你解决的问题在类似领域是否有可以借鉴的方案。在地球物候大赛上,我就特意去找了相关领域的论文进行参考,对实际比赛时的主要算法应用很有启发。

朱强:我打的比赛比较少,在这次地球物候大赛中能够取得好成绩,主要还是因为这个赛题与我研究生课题比较接近,前期积累很充分,这导致我参与比赛的前期很顺利,给了我足够的自信一鼓作气打到最后。所以在我看来,要取得好成绩,一定要积累积累再积累。

2、说协作

文聪和朱强进入佳格后,还代表佳格参与了两场数据大赛,都取得了优异成绩。如数字中国创新大赛的建筑智能普查赛道冠军,以及由DC承办的2020深圳开放数据应用创新大赛粤港澳大湾区强降水预测赛亚军。

DC:组成团队参与竞赛,和自己单打独斗有着怎样的区别呢?

文聪:首先,在团队中,你和队友交流要非常深入,这和你自己单打独斗时的体验完全不同。其次,大家可以各自验证自己的idea,当某人有突破时,再迅速分工深入研究,效率比自己研究时高得多。最后,在团队里,你要学会倾听别人的意见,再融入自己实际工作。

朱强:一场比赛的胜利不是靠单打独斗,而是作为一个团队完成的。我记得很清楚,宋博士在我们团队取得一次比赛胜利后发了张灌篮高手五个人的合影。值得一提的是,我在佳格参与的两场比赛,因为受疫情影响,都是在线上完成的。但大家的分工合作并没有受到影响,我们像篮球比赛一样,互相补位,最终取得了不错的成绩。

DC:“青年队教练”是宋宽博士对自己的定位,教练有什么可以分享的经验吗?

宋宽:以今年参加的福建省数字中国创新大赛为例,这场大赛规格很高,是很多企业秀肌肉的竞技场,我格外重视。不过在参赛时,我不能这么和团队同学讲,要不就给他们太大压力了。在参加比赛时,我并没有给团队同学设立什么目标,一定要拿第几名什么的。而且当时正好是国内疫情最严重的时期,团队五个成员分散在五个不同的城市,完全通过线上进行交流,克服了很多困难。尤其是文聪,他当时在武汉,面临的困难可以说是最大的。

文聪:我当时在距离武汉50多里地的孝感市安陆县横山村,村子里有出现感染病例,春节前后那段时间各种物资比较紧张,而且我姐姐姐夫是医务人员,在前线抗疫,我还要帮忙照顾小孩,整体情况确实非常困难。

宋宽:这种情况下,文聪还担任了我们团队主攻手,做出了主要的算法贡献。而朱强担任了一个敢于创新的角色,他提了个Idea,帮助团队在排行榜冲到了第四的位置。在这个基础上,我提了个Idea,团队一起协作,最终拿到了第一名。当时我们团队建立起了很好的协作机制,上午十点,下午两点和六点各碰一次头,一天三轮讨论,硬生生啃下了这次比赛。充分发挥团队里每个人的能动性,扬长补短,真的太重要了。

DC:一个优秀的团队,应该具备怎样的素质?

宋宽:在过去五年里来,我接触了大量的出色的年轻人,凡是能够做出成绩的团队,一定不是被某个大佬强行捏合而成,而是像一支摇滚乐队,从互相认可开始,产生一起玩玩的念头,最终取得好成绩。要成为一支优秀的竞赛团队,线下的交流很重要。这里我想给各个竞赛主办方一个建议,一定要加强选手间的交流功能开发,建立一个足够活跃的选手交流渠道,伟大的队伍一定是靠自发组织起来的。

3、谈价值

DC:比赛经历对实际工作有着怎样的帮助呢?

文聪:比赛经历对我来说,首先还不是能力锻炼,而是信心建设。在获得成绩后,我发现,如果限定数据条件,和与从业一到两年的数据工程师相比,我也有信心比他们做得好。其次是工作上的,学会如何进行团队协作,锻炼自己收集信息的能力。最后便是如何一条龙的搭建一套模型方式的技术了。

俊年:我的实际工作其实就只有佳格的两个月实习经历,因为地球物候大赛和佳格实际工作相关性很高,竞赛经历对我上手工作很有帮助。另外就是我在实习期间主要负责测试各种不同的算法,佳格给实习生的工作环境很宽松,并没有特别要求在限定时间内完成特定任务,这也有助于我发挥自己的创新能力。

朱强:关于竞赛与工作,我有些不同的意见。竞赛相当于是做题,在设定的条件范围内取得最好成果,但实际工作中,要考虑的东西很多,这是一个动态的过程。

DC:宋博士觉得参加过竞赛的同学在实际工作中有何优势?

宋宽:佳格深度学习团队从成立开始就定下了一个招聘基调,主要从竞赛中进行招聘,社会招聘其次。从我2014年回国到现在,面试过的20到35岁年龄段数据工程师,差不多有近千人了。这个群体不仅是我在佳格接触的,也包括我在阿里云以及其他公司的工作经历,可以说是比较广泛的一个采样。从我的经验来说,竞赛中出来的同学,潜力极大,成才比例远远高于社招。

为什么会出现这样的情况?我总结了三个原因。

首先,自我驱动能力强。除专业打比赛的团队,绝大多数选手都是在课余或是业余时间参与竞赛,这样的群体,自我追求比较高,对自己也够狠,他们往往不满于现状,自我驱动力远远高于只会背书的人。他们的行动力往往也超强,比如这三位同学,分别来自四川,江苏,湖北。但是他们来北京都是背个旅行包就来了,完全没有特别累赘的行李啊担忧啥的。从南到北,说走就走。

其次,实践磨合程度高。我们知道学校书本里教的东西,和实际工作中区别很大,这也是为什么在读研究生时能够接触实际问题是那么的重要,要给自己时间来磨合定位。而通过参与竞赛,无论是学生或是在职,都能更好的贴合实际问题。

第三,团队合作能力强。我自己也曾是名数据竞赛选手,在我参与竞赛时发现,几个月的赛程,单打独斗,你的体力与脑力是不足以撑到最后的。但在一个高效的团队中,则完全可能笑到最后。就像《权力的游戏》中说的一样,当北风吹起,一群狼可以活下来,但一匹孤狼却只能死去(When the snows fall and the white winds blow, the lone wolf dies but the pack survives)。一场篮球比赛,你一个人也无法对抗对面五个人的队伍。与一般体育运动相比,想要锻炼算法工作中的团队合作能力的机会可要少太多了。通过参与数据竞赛锻炼自己的协作能力,是能让人终生受益的。

DC:竞赛的赛题接近但不等同于实际工作中的问题。有个词叫“做题家”,形容那种只会机械性重复工作,不懂发散思维的人,如何破除这种“做题家”思维呢?

宋宽:实际工作涵盖范围很广,我们不能一概而论。有的同学擅长做模型,有的同学擅长做开发,所以不能简单的将一个人的思维归纳为“做题家”。但有一点很重要,多实习,趁着年轻,大家不妨多尝试一下。学习不能只限制在校园里,就像法国的工程师教育当中,硕士三年学习里实习比重越来越大。我认为,要更早、更多的参与实习,以年轻人思维方式的敏锐,在团队中所学习到的东西越多,越能更好的快速投入实际工作。

DC:作为支持过多场数据大赛的出题人和评委,宋博士在设计题目时有哪些考量的维度?

宋宽:以地球物候大赛为例,设计这个赛题时,我认为对自然界要素建模与预测的技术,可能在接下来的几年里,在深度学习领域里逐渐成熟。我们并没有期待这个大赛能做出变革性的成果,而是希望能在这个逐渐成熟的过程中发挥作用。在我看来,数据大赛是播种机,通过竞赛播下的种子,我们可以发现原来有这么多的深度学习方法值得算法人员去尝试。这是我设计题目的第一重考量,挖掘现有方法的潜力。

另一方面,在尝试现有方法,依然无法解决问题后,我们这个大赛能够推动深度学习不断的向前发展。深度学习并不是一个万能的东西,我们不能满足于仅仅训练一个模型,而是要探寻更大、更动态的东西,通过竞赛提出一些更好的问题,拓宽技术的边界。

最后,从功利的角度出发,我希望能够找到一些出色的同学,和我们一起做些有意思的事情。在地球物候大赛后,我们还主办了一个追风少年大赛,通过气象卫星数据来预测台风的发育发展,这是一个长期的比赛。普通的大赛影响力可能仅限于几个月赛程,但采用长期赛的方式,我们可以不断的吸引新的同学加入进来,这有利于行业的健康发展。我们希望与DC合作,将地球物候大赛也做成一个长期比赛。我们发现,一场大赛的成果能够在1到5年内,慢慢的对行业产生正面的影响。比如目前佳格的主要算法业务之一,就是17年举办的一次大赛所孵化出来的。

4、学习与成长

DC:在佳格实习期间有什么收获?

文聪:因为我本身并不是计算机专业出身的,算法之类的知识基本靠自学,一年实习经历,最大的收获便是如何解决实际问题的能力了。具体来说,就是如何找数据,如何和同事沟通,如何快速验证自己idea并用通俗易懂方式展示给别人的能力。

俊年:我实习期比较短,两个月时间里,一方面是了解到了更多算法上的知识点,另一方面能够得到宋宽博士的亲自指导,很难得。

朱强:佳格实习经历对我来说非常宝贵,可以说是改变了我的人生轨迹。因为我是从小地方出来的,能够在佳格接触到像宋宽博士这样真正站在行业前沿的大佬,学习他们的思维方式,对我来说极为重要。我以前以为算法工程师就是要做些很宏大的工作,但宋宽博士带着我做了很多基础工作,彻底颠覆了我对算法工程师的认知,对我后续的发展帮助非常大。

宋宽:朱强在佳格做的主要是图像分割和云上部署,但他毕业论文做的是图神经网络,现在工作是做自然语言处理。能够涉猎这么多方向,而且都做出了一定成绩,这对将来的发展将非常有好处。我建议同学们一定要趁着年轻学习能力强的时候,不断学习,不断试错。另外要强调一点,博学与专精并不冲突。

DC:有什么找工作找实习的经验分享吗?

文聪:对于计算机相关行业的同学来说,如果找算法相关实习,无论是深度学习、机器学习或是数据分析师,去找一个合适的、专业的数据比赛来打,很有必要,锻炼能力的同时也可以给简历增光。做后端或者前端的同学,可以去打打ACM这样的比赛。

俊年:关于秋招,大部分算法岗面试官都喜欢问课本上的基础知识点,哪怕这些知识点在实际工作中用不上。对于想要踏入深度学习领域的同学来说,不要被各种高端的算法模型花了眼,最重要的还是基本功。就我个人经验而言,相比你做了什么项目,面试官更看重你在项目中起到什么作用,发挥了什么想法。在一个普通项目中发挥主要作用,要优于在高大上项目中打杂。

题外话,有个北漂小经验分享,在你选择租房的时候,不要选择离地铁近的,高峰期地铁实在是太挤了。反而是公交车,在高峰期有专用车道,不会堵车,如果距离合适的话,在有直达公司公交的地方租房是个不错的选择。

朱强:要清楚你找实习的目的是什么,只是想给自己简历加点分?还是实际想学些东西?前者的话你奔着名气去就行,后者则要认真的去了解你想要加入的团队。如果你一开始很迷茫也没问题,大胆的去试错,及时止损,这也是宋博士告诉我的,年轻人就是要敢闯。

宋宽:这些年来我身边来来去去了许多优秀的年轻人,我不会刻意画饼让他们留在我身边。我一直强调,要多去闯闯,尝试不同的可能性,不要为了一时的安逸停下脚步,聚是一团火,散是满天星,总有再次合作的机会。

DC:给刚刚踏入数据科学领域的同学一些建议吧?

俊年:对于刚开始学习数据科学的同学,比赛真的是个很好的锻炼方式,不必奔着得奖,能学到东西就是最好的。还有就是一定要有个主要的学习方向,不要东学一截西学一茬,基础打好了再学其他东西。

文聪:做实验的物质条件一定要好。显卡只要一张就可以了,但你一定要学会记录自己的idea,有清晰的学习路径记录。在实际学习工作中,你可能一个月会浏览几百个有价值的网页,如何把这些搜集的资料记录并整理下来,并配置起适合自己的环境。当物质条件解决后,你就有足够的精力来*探索了。

朱强:数据科学,前提是数据。我当初拿到一个数据集,将它跑起来,出了一定成果,就认为已经掌握了这个数据,但后来宋博士问我,这数据有什么特征,我不知道。做研究不是拿个算法跑得好看就行,要彻底吃透这个数据。

宋宽:我在俄亥俄州立大学读硕士期间,在专业外修了一堆统计系课程,这是我第一次接触数据科学,尽管当时甚至都没有数据科学这一概念。虽然后续我的算法训练大部分在马里兰计算机系和电子系完成,但我看数据科学时,依然会带上俄亥俄州立统计系的烙印。朱强出身中国矿业大学计算机专业,所以他会首先去理解算法并快速动手实验,却没有观察数据的习惯,被我陆续逼着去看数据然后思考。而文聪是南京大学物理系学生,数学功底不错,他自己觉得算法上会弱一些,那他看待数据科学,就特别强调硬件与环境配置,这是物理系学生的视角。其实他很强,关键是要鼓励他来建立信心,他就可以完成全垒打。而俊年毕业于电子科大数学系,对算法很敏感,他重视打好基础,有着很浓厚的数学系学生的风格。数据科学是一门交叉学科,这些跨学科的思维非常宝贵,你一定要接触不同的人,学习他们身上值得学习的地方。

现在中国的年轻人,真是了不起,不要小看他们,他们能够改变这个世界。我觉得挺幸运的一点是,无论是在阿里工作期间,还是在佳格带团队,我能够遇到这些厉害的年轻人,从他们身上学到了不少有价值的东西,这对我来说非常有意义。而对于广大的初学者来说,认识什么大佬巨佬都是虚的,关键是你有没有从他们身上学到有价值的东西。就像参加数据比赛一样,获胜者就那么几个人,但你能从比赛中找到有价值的东西,这才是最宝贵的。

最后送大家一句成语,叫做功不唐捐,努力可能不会马上看到成果,但长期来讲,努力永远会给你带来超乎预料的回报。


你眼前的这个世界正在被大数据、人工智能进行着深度变革,这是历史不可逆的大趋势。就像一位长者所说,一个人的命运,当然要靠自我奋斗,也要考虑到历史的行程。当下,“数据科学家”已然成为最时尚性感的称谓,数据科学的相关岗位被贴上了高薪、前沿、精英的标签,成为了从业者们角逐的标的。

19年初,朱强获得了佳格比赛第九名,在佳格实习了一年,期间与佳格团队合作论文发表于期刊IEEE Engineering Management Review,并有一项算法工作成为华为云人工智能“严选”产品,实习结束后入职华为。文聪是佳格比赛的第六名,在佳格实习了一年,实习期间有一项算法工作成为华为云人工智能“严选”产品,并有一项第一作者专利,毕业后入职佳格。俊年是佳格比赛的第五名,在佳格实习了两个月,毕业后入职Oppo。曾经的竞赛与实习经历成为了他们前进的基石,他们乘风破浪,继续开拓着他们的人生征程。他们,也许将能成为这个时代舞台的主角。

全文完。感谢您的耐心阅读。​​​