公民数据科学家的局限性

时间:2022-10-10 15:09:06

正如计算机处理能力随着时间的推移而增加一样,我们已经开始期待技术每年都能将更多复杂的任务自动化,这在某些数字领域是正确的,但这种线性思维方式可能在数据科学和机器学习领域行不通,特别是在试图用所谓的 “公民”数据科学家来取代全面的数据科学家时。

公民数据科学家的局限性

数据科学是一个复杂的领域,需要从业者精通多个领域。虽然定义很多,但典型的数据科学家通常被认为拥有三个方面的技能:计算机科学、数学/统计学和领域知识。毫无疑问,你已经看到了显示这三个领域重叠的维恩图,而罕见的数据科学家就在中间。拥有这种技能组合的人很难找到,这就是为什么根据Salary.com的数据,数据科学家的平均工资能达到123000美元到152000美元。

数据科学家的定义有很多变化,可以看看图灵奖得主Jeffrey Ullman对数据科学家的描述,对数据科学家所需的特定技能进行了一些调整和补充。不同行业使用数据科学的方式不同,这影响了所需的具体技能。几年前,曾有人推动淡化这一头衔的含义,热爱SQL的数据分析师试图篡改这一头衔,以获得更多工作的资格,并提高工资范围。但值得庆幸的是,这种分析员的宽泛说法似乎已经过时了,而且总的来说,今天雇主和雇员对什么是数据科学家似乎都有一些广泛的共识。

这就把我们带到了公民数据科学家的话题上,他们是否真的能取代非公民同胞,或者这只是另一个试图通过改变词语定义来改变现实中敌对处境的例子。

有一种说法是,数据科学和机器学习平台的日益复杂化正在减少对全面的数据科学家的需求。随着AutoML和其他工具将一些过去属于数据科学家的任务自动化,如数据准备、特征和模型选择以及超参数调整,一些人认为,具有较低程度的技能和经验的人,即公民数据科学家,可以从头到尾成功推动数据科学项目。

这个想法得到了该领域专家的强烈反对。其中之一是MLOps工具供应商Datatron的总裁Victor Thu。Thu说,虽然公民数据科学家可能会发现使用低代码的AutoML工具来驱动某些领域的数据科学项目成功,但当涉及到数据科学的一个关键方面——数据时,由于缺乏对统计学的掌握,往往会碰壁。

对于AutoML工具可以消除对全面的数据科学家的需求的想法,Thu说:“这是一种营销,”。“如果你试图设计一个人工智能或ML项目或解决方案,为公司工作,并不是简单地把你的数据扔给一个自动化的工具来得出一些结果,并不是那样的。你真的需要一个受过适当培训的人来看数据,理解数据告诉你的东西,这样你就可以建立一个合适的解决方案。”

组织一次又一次遇到的一个大障碍是数据的状态。简而言之,数据往往是一塌糊涂,这就是为什么数据科学家在分析历史数据的趋势和最终训练机器学习模型以对新的输入进行预测之前,要花这么多时间清理历史数据。虽然通过自动化加速这项任务的数据清理工具近年来取得了长足的进步,但是数据质量存在巨大差距,这将迅速绊倒一个数据科学项目。

“今天的很多问题[来自于]我们拥有的很多数据没有得到很好地整理,”Thu告诉Datanami。“如果提供数据的人知道数据是关于什么的,那么AutoML有可能会提供足够好的结果。但如果是一个没有受过训练的数据科学家,基本上只是从他们现有的数据库中收集了一堆数据,”那么结果有可能不会好。

关于这个话题的另一个观点来自Kjell Carllson,他是Domino data Lab的数据科学策略和宣传负责人。

“‘公民数据科学家’(CDS)概念的发明是出于好意--促进数据、机器学习和人工智能知识的普及,但它的危害大于益处,”这位前Forrester分析师在Domino数据实验室网站上最近的一篇博客文章中写道。“由CDSes组成的企业的空想不可避免地导致了昂贵的举措,这些举措充其量只能带来一次性的见解,在大多数情况下,与数据科学毫无关系。许多采取这种方法的公司最终都一无所获。”

Carllson并没有试图用公民数据科学家来取代真正的数据科学家,而是希望“荣誉”数据科学家能够帮助完成一些相关的数据科学任务,如数据准备或数据分析。但当涉及到建立机器学习模型时,不要试图用公民数据科学家取代真正的数据科学家,除非你喜欢接到监管机构的电话。

他写道:“这些重要的、关键任务的(往往是受监管的)模型不能也不应该由专业数据科学家以外的人创建,原因就像医院不应该配备'公民外科医生'、航空公司不应该依靠'公民飞行员'、塔楼不应该由'公民建筑师'建造、你的C-suite不应该由'公民经理'组成一样。”

也许我们只是需要重新思考公民数据科学家是什么。公民数据科学家实际上是作为初级数据科学家发挥作用,并非承担着作为正式数据科学家的所有责任,公民数据科学家有一套完全不同的责任。这实际上是Gartner提倡的方法,它将公民数据科学家定义为 “创建或生成利用预测性或规定性分析的模型的人,但其主要工作职能是在统计和分析领域之外”。

“组织面临的最大斗争是公民数据科学家的职责不明确,”Gartner的副首席分析师Anirudh Ganeshan在Gartner网站2021年6月的一篇博客文章中说。“这种模糊性造成了专家和公民角色之间的敌对,阻碍了健康的合作和沟通。”

Ganeshan说,虽然公民数据科学家可能能够帮助完成一些数据准备和数据分析任务,但应该在真正的数据科学家的监督下完成,他们有必要的数学和统计学培训,以避免不良结果。

“公民数据科学家绝不能孤立地工作。”他说,“公民数据科学家不应该以孤立的方式利用自我服务的数据科学平台。相反,他们应该与最终将负责验证这些模型的专家数据科学家一起参与开发过程,然后再将其投入生产。”

虽然学校已经加强了数据科学的教育和培训,但在数据科学家的供需之间仍然存在着鸿沟。试图用具有“公民”头衔的人取代昂贵且难以找到的数据科学家,想法和不错,Thu建议不要这么做。

“如果你想建立一个好的模型,你最不想削减成本的地方就是数据科学方面。”他说,“因为如果你没有准备好你的数据,没有从最初准备好你的数据,而你只是让一个公民数据科学家来做,你实际上会在管道上产生更多的成本,因为你可能会遇到下游的监管合规问题。”

作者: