细数数据科学团队中的十大关键角色

时间:2022-08-12 00:35:32

作者:Chris Foot;编译:帆软数据应用研究院-grace

细数数据科学团队中的十大关键角色

无论公司规模或行业如何,将高绩效企业与不太成功的企业区分开来的一个共同特征是:高质量的决策。越来越多的决策由数据驱动。从一线运营部门到高级管理团队,数据分析有助于消除企业各级决策过程中的猜测。

但原始数据本身提供的价值有限。当企业将数据转化为易于可视化和解释的信息时,数据对决策的价值呈指数级增长。数据本身也必须是高质量的——干净、一致和正确。确保数据可以转化为可操作的见解的责任落在了数据管理团队的肩上。

01、为什么有效的数据管理团队对企业很重要?

数据管理是一种专注于有效管理企业数据资产的实践。从数据创建和收集到在整个企业中有效使用数据,管理数据需要广泛的角色和职责。在较小的企业中,一名 IT 专业人员通常承担多个角色。但随着数据管理工作量的增长,企业通常会将这些活动分配给一个团队。

如果没有熟练的数据管理团队,企业可能会发现自己拥有低质量的数据,这些数据会阻碍战略规划、业务运营以及有助于为决策制定提供信息的 BI、报告和数据科学应用程序。例如,错误、不一致和其他数据问题可能会扭曲操作操作和分析结果。独立的数据孤岛对不同部门的用户隐藏相关数据。最终,从数据集中获得预期的商业价值成为一个巨大的挑战。

02、数据管理团队的目标和总体职责

数据管理团队的主要目标是确保企业数据资产满足业务需求和用户的信息需求。为实现这一目标,该团队努力使数据可供计划用途使用和访问,并确保其准确、可靠且组织得当。该团队还结合来自不同系统的数据集,让用户全面了解运营、客户、财务业绩和其他业务领域。

在高级别上,数据管理团队的职责包括以下内容:

  • 管理数据库、数据仓库和其他数据存储库;

  • 开发数据架构,以记录数据资产和映射数据流;

  • 数据建模,以创建数据结构图和相关业务规则;

  • 数据质量管理,以识别和修复数据集中的问题;

  • 数据集成工作,将不同的数据集整合在一起;

  • 数据工程,包括在源系统和目标系统之间构建数据管道。

许多数据管理团队也进行数据分析,同时处理 BI 和高级分析应用程序,而不是让这些功能成为单独分析团队的一部分。

03、数据管理团队包括的 10 个角色

现在,让我们看看最常见的数据管理角色及其职责。不过,值得注意的是,企业的规模及其收集和存储的数据量将影响如何将数据管理职责分配给不同的人员。

此外,IT 部门为企业部署的技术将影响其中一些角色所涉及的特定活动。尽管如此,尽管数据管理团队成员所做的工作可能因所使用的平台而异,但此处概述的核心职责在所有技术和产品中都是通用的。

1、数据库管理员-Database administrator

正如职位名称所示,数据库管理员 ( DBA ) 负责管理企业的数据库。无论管理员支持哪种特定的数据库管理系统 ( DBMS ) 平台,DBA 的核心职责都是相同的:系统可用性和数据库性能、安全性、监控和恢复。

除了后端支持职责外,DBA 还确保数据得到有效组织和存储。对于需要预定义模式的数据库,他们与应用程序开发人员和数据管理员一起设计和创建用于存储数据的物理对象;它们还索引结构和逻辑对象以提供高效的数据库访问。DBA 的其他任务包括创建用户帐户和分配访问权限,以及帮助开发人员和最终用户调试和优化应用程序。

随着 DBA 工作量的增加,企业通常将功能分离到单独的系统和应用程序支持角色中。系统 DBA 负责支持后端 DBMS 基础设施,而他们的应用程序 DBA 同行则处理平台内的数据和对象,并协助开发人员和用户。数据仓库 DBA 是另一个专门角色。

DBA 的主要职责包括:

  • 获得企业后端数据库系统的管理所有权。

  • 在整个生命周期中组织和维护数据库数据。

  • 帮助应用程序开发人员和最终用户进行调试和数据访问。

2、数据管理员-Data administrator

数据管理员从业务和技术角度查看数据,并与最终用户和开发人员交互以定义、描述、组织和分类数据集。例如,数据管理员的标准做法是采访业务用户以确定他们与之交互的数据并了解它如何应用于企业。

利用这些信息,数据管理员可以根据数据集的业务含义、不同数据元素之间的关系以及管理数据的业务规则来构建数据模型。建模创建了一个框架,使不同的业务部门能够共享及时和准确的数据。数据管理员还为数据元素制定命名约定、存储定义和业务规则约束。

在没有数据治理团队的企业中,数据管理员通常会带头制定和实施旨在确保数据安全、质量和正确使用的治理政策、程序和最佳实践。

数据管理员的主要职责包括:

  • 帮助业务部门定义、组织和分类数据并记录相关的业务规则。

  • 创建和维护概念、逻辑和物理数据模型。

  • 建立和维护数据管理和治理最佳实践。

3、数据建模师-Data modeler

尽管数据管理员通常负责数据建模,但许多企业——尤其是大型企业——为该活动创建了一个特定角色:数据建模者。在这种情况下,数据建模人员处理构建概念、逻辑和物理模型的过程,这些模型成为企业数据存储的基础。

这是一个重要的角色:与建模数据元素交互的所有后续开发和管理流程的质量完全取决于初始逻辑设计和物理实现的质量。此外,数据建模师不断更新和修改模型,以随着企业中数据集和业务需求的变化使模型保持最新。

数据建模师的主要职责包括:

  • 与数据管理人员和业务用户合作,收集设计和记录数据模型所需的信息。

  • 使用建模工具构建概念、逻辑和物理数据模型。

  • 开发最佳实践以确保数据模型的持续一致性并验证它们与不断变化的业务运营的关系。

4、数据架构师-Data architect

数据架构师是一个高级职位,通常在整个企业中工作。数据架构师通常拥有高级技术学位并且对业务有深刻的理解。他们负责开发数据架构,这是企业数据管理框架的蓝图。许多人还帮助选择最能满足应用程序业务和技术需求的数据平台和系统。

因此,数据架构师需要与当前和新兴技术保持同步。除了架构技能外,数据架构师通常还擅长系统和数据库设计以及数据建模,并且他们通常对系统开发生命周期模型和项目管理最佳实践有深刻的理解。

数据架构师的主要职责包括:

  • 在企业级为组织的数据管理框架开发和维护架构蓝图。

  • 了解最新的数据管理、存储和处理技术。

  • 帮助业务用户和 IT 人员选择和实施系统。

5、ETL开发人员-ETL developer

集成数据集、将它们从源数据类型转换为不同的目标数据类型、清理数据并应用业务规则对其进行标准化可能是一个复杂的过程。因此,许多企业创建了一个单独的数据集成角色,专注于提取、转换和加载 (ETL) 处理。ETL 开发人员是最常见的职位,但在某些情况下也使用数据集成开发人员和数据集成工程师。

这个角色通常涉及将数据从源系统加载到数据仓库中;它还可以包括为操作应用程序集成不同的数据源。用于清理和标准化数据的代码可以从 ETL 工具中内置的简单参数化过程到复杂的编程逻辑。数据转换需要 Python、Perl 和 SQL 等编程语言的知识,ETL 开发人员还必须对数据分析和数据访问技术有深入的了解。可能还需要了解除 ETL 之外的其他数据集成方法。

ETL 开发人员的主要职责包括:

  • 使用 ETL 工具从源系统中提取和处理数据并将其加载到目标系统中。

  • 进行数据清理和验证,以确保数据质量水平满足要求。

  • 创建 ETL 和其他数据集成过程的文档并根据需要进行更新。

6、数据质量分析师-Data quality analyst

企业产生的数据比以往任何时候都多。因此,建立和维护高水平的数据质量是许多企业面临的持续挑战。数据质量分析师负责识别错误、异常和其他缺陷,这些缺陷会损害数据质量,并最终影响其对企业的商业价值。

他们从数据质量的各个方面评估数据集,例如准确性、完整性、一致性、一致性和重复数据的缺失。一旦发现数据问题,数据质量分析师就会努力解决这些问题,以提高数据可靠性并确保最终用户能够访问可信数据。该角色通常还涉及跟踪数据质量指标和对用户进行最佳实践教育,以帮助提前预防质量问题。

数据质量分析师的主要职责包括:

  • 识别数据问题并确定其严重性和业务影响范围,以帮助规划数据质量改进计划。

  • 采取必要的步骤来修复不正确的数据值和其他问题,并解决其根本原因。

  • 为最终用户建立数据质量指南和最佳实践,以最大程度地减少未来出现的问题。

7、数据工程师-Data engineer

数据工程师是IT行业的数据传输和存储专家。他们负责将数据移动到分析数据存储中,并准备好供应用程序开发人员、数据科学家和其他分析师使用。为此,数据工程师使用的软件范围从专注于将数据从一个系统移动到另一个系统的数据管道产品到更高级的 ETL 工具。

数据工程师必须对数据仓库和大数据平台及其存储数据的方式有深入的了解。此外,该职位还需要了解能够访问大数据系统的 API 以及数据管理和分析最佳实践方面的应用知识。由于数据工程师负责在整个企业中移动大量数据的管道,因此他们还需要性能监控和故障排除方面的专业知识。

数据工程师的主要职责包括:

  • 构建从源系统检索数据的数据管道,根据需要对其进行标准化和转换,并将数据加载到目标系统中。

  • 评估、实施、使用和管理数据管道和 ETL 工具。

  • 监控源系统和目标系统之间数据传输的性能和质量。

8、数据科学家-Data scientist

数据科学家是数据分析专家——备受追捧的高级专业人士,他们通常拥有数据科学、统计学、数学或计算机科学的硕士或博士学位。数据科学家使用的技术包括统计分析、预测分析、人工智能、机器学习和深度学习工具,以及包括 Python、R、Scala、SQL 和 Julia 在内的编程语言。

除了分析数据以改善当前业务运营之外,数据科学家还开发预测模型来预测未来趋势并回答假设问题。为了帮助业务用户了解他们的分析工作所揭示的数据洞察力,大多数数据科学家还使用数据可视化工具来创建图形、报告和仪表板,以易于理解的格式呈现调查结果。

数据科学家的主要职责包括:

  • 开发分析和统计模型来分析数据并根据需要进行改进。

  • 使用机器学习和其他高级分析技术来发现数据中隐藏的洞察力并预测客户行为和未来业务趋势。

  • 构建报告、仪表板和数据可视化,向业务主管和其他数据消费者展示洞察。

9、数据分析师-Data analyst

尽管此角色有时被视为数据管理领域的入门级职位,但在需要帮助将原始数据转化为有意义的见解时,数据分析师通常是首选团队成员。与数据科学家一样,数据分析师清理、组织和分析数据集并构建仪表板和报告,以帮助业务用户了解分析应用程序的结果。

在某些情况下,数据分析师独立工作;在其他情况下,他们支持数据科学家并受其监督。他们通常不像数据科学家那样经验丰富或技术熟练。但是,要有效,数据分析师除了要精通分析和数据可视化工具以及编程语言(如 Python 和R。

数据分析师的主要职责包括:

  • 建模、清理、组织和分类数据集以用于分析应用程序。

  • 分析数据,为运营和战略决策找到可行的见解。

  • 创建报告、仪表板和数据可视化,以帮助业务用户解释分析结果。

10、商业智能分析师-Business intelligence analyst

商业智能分析师,或简称 BI 分析师,比初始数据设计和分析建模更关注数据分析和可视化。BI 分析师通常使用存储在数据集市和数据仓库中的结构化数据,而不是数据科学家和数据分析师使用的更多样化的数据湖。一般来说,他们还运行不太复杂的查询来跟踪业务 KPI、客户购买习惯、车间生产和其他运营问题。

然而,BI 分析师经常访问和聚合大量数据以识别有助于优化运营和影响业务战略的模式。为了有效地使数据在决策过程中有用,他们需要了解其业务含义。除了自己的数据分析工作外,BI 分析师有时还帮助培训和支持业务部门中自助式 BI 工具的用户。

BI 分析师的主要职责包括:

  • 与业务经理合作,确定可以帮助他们改进当前运营并预测未来业务需求和趋势的数据资产。

  • 分析数据以查找有助于推动高质量业务决策的信息。

  • 构建仪表板、报告和数据可视化,以将调查结果传达给业务用户。

04、管理数据管理团队

在实践中,上述角色如何分组到团队中会有很大差异。数据管理团队的实际组成取决于企业的偏好。为监督团队而设置的管理层和报告结构也是如此。

公司规模可能是一个因素。在中型企业中,您经常会在同一个团队中找到 DBA、数据管理员和数据建模师,该团队向中级数据经理报告。在较大的企业中,这三个角色可能是独立的团队,每个团队都有自己的经理;这三个人都向数据管理员报告。

数据工程师、数据科学家和数据分析师通常被分配到一个特定的团队,该团队专注于支持和使用数据湖进行高级分析。在一些企业中,数据仓库 DBA、ETL 开发人员和 BI 分析师也可能被分配到该组。在其他情况下,他们可以是单独的 BI 团队的一部分。数据质量分析师可能不包含在数据管理团队中,而是包含在具有自己的报告结构的数据治理团队中。

当您查看 IT 企业结构图时,数据管理团队通常会向可能负责监督大型企业中多个团队的高级 IT 或数据经理报告。反过来,高级管理人员可能直接向 CIO 或首席数据官报告,而不是 CTO,后者更关注 IT 创新和新技术的实施。