谈一谈原始数据的定义和应用

时间:2022-02-24 01:04:37

原始数据(通常称为源数据或原始数据)是尚未经过处理、编码、格式化或分析以获取有用信息的数据。虽然原始数据是一种宝贵的资源,但由于它在视觉上杂乱无章且缺乏凝聚力,因此很难理解或采取行动。

谈一谈原始数据的定义和应用

公司、公司和组织都可以使用原始数据来收集有关其目标的信息。然而,这需要他们将数据结构化和组织成一种更易于阅读和可视化为图表和图形的形式。本文将帮助您了解原始数据的各种用例以及数据分析师和科学家如何处理原始数据。

01、如何使用原始数据?

原始数据是从一个或多个来源收集的数据,但仍处于其初始、未更改的状态。此时,根据收集方法的不同,数据可能包含大量人为、机器或仪器错误,或者缺乏验证。但是,任何有助于提高数据质量的更改都称为处理,数据不再是原始数据。

作为一种资源,原始数据具有无限的潜力,因为它具有各种形状和类型,从数据库和电子表格到视频和图像。

收集原始数据是更透彻地了解人口统计、系统、概念或环境的第一步。商业智能分析师使用它来 提取有关其业务状况的有用且准确的信息,包括受众兴趣、销售、营销活动绩效和整体生产力。

原始数据通常因具有无限潜力而受到珍视。这是因为它可以通过几种不同的方式重新分类、重组和重新分析,以从各种角度产生不同的结果——只要它是相关的并且已经被验证是可信的。

02、收集原始数据

数据的收集方式对其质量和未来潜力起着关键作用。准确性、可信度和有效性可能是包含大量信息和见解的原始数据数据库与几乎无法产生任何可操作结果的空间浪费之间的区别。

收集原始数据的第一步也是最重要的一步是确定您希望随后从数据库中提取的信息类型。如果是用户群和客户信息,那么在线调查应该关注特定的年龄和地理人口统计,无论该过程是在内部完成还是外包给第三方公司。

其他类型的原始数据可能需要提前规划。例如,从日志记录中收集数据需要在任何地方部署一个监控系统,时间从几周到一年不等,以便在能够提取数据之前收集数据。

二是采集方式。选择适当的技术可以减少在清理原始数据库时必须清除的人为或机器错误的百分比。

确定来源、范围和方法后,才开始实际的数据收集。 原始数据往往体积庞大且高度复杂,实际获取的数据量只能在收集过程中进行估算。只有在处理数据的第一步之后才能找到准确的数字,即清除错误和无效数据点和条目。

03、如何通过 5 个步骤处理原始数据

数据分析师、商业智能工具,有时还有人工智能 (AI) 应用程序,所有这些都协同工作,以便将原始数据转换为经过处理和有洞察力的数据。

1.准备数据

通过可用的各种收集方法获取数据后,需要准备数据以供处理。这是因为原始数据本身被认为是“脏数据”,带有大量错误和无效值。更不用说缺乏统一的结构以及格式和测量单位的统一,尤其是当数据来自各种来源或地区时。

在数据准备过程中,根据标准对数据进行清洗、排序和过滤,以消除不必要的、冗余的或不准确的数据。此步骤对于确保从分析和处理中获得高质量和可靠的结果是绝对必要的。毕竟,结果只能与输入处理工具的数据一样好和准确。

通过在收集数据时使用更可靠的工具,可以简化或加速清洁步骤。

2.输入数据

数据输入,有时称为数据翻译,是将数据转换为机器可读形式的步骤,具体取决于稍后将在分析过程中使用的工具和软件。

对于以数字方式收集的数据,此步骤最少。但是,可能需要对文件格式进行一些结构化和更改。但是,对于手写调查、录音和视频剪辑,手动或数字化将数据提取为处理软件能够理解的形式非常重要。

3. 处理数据

在此阶段,先前准备和输入的原始数据经过许多机器学习和人工智能驱动的统计数据分析算法。这些负责通过搜索趋势、模式、异常和各种元素之间的关系的输入,将原始形式的数据解释为见解和信息。

该过程的这一步因所处理数据的类型而异,无论是来自在线数据库、用户提交、系统日志还是数据湖。熟悉数据本身和组织希望提取的信息类型的数据科学家和分析师能够根据需要微调和配置分析软件。

4. 产生输出

在此阶段,原始数据已完全转化为可用且有洞察力的数据。它被翻译成一种更人性化的语言,可以表示为图表、图表、表格、矢量文件或纯文本。

这使得它可以用于那些几乎没有或没有技术技能的股东和高管能够完全理解它的演示文稿。

5. 存储数据

分析过程产生的结果应存储在安全且易于访问的位置,以备后用。这是因为即使是经过处理的数据也可以通过关注某个区域来进一步分析更多细节。

如果数据包含敏感的公司信息或用户数据和信息,则此步骤至关重要。存储质量需要与公司的其他数据和信息保持一致,并且必须遵守当地适用的数据隐私和安全法律,例如GDPR和CCPA。

04、数据处理类型

根据原始数据的来源和用途,可以使用许多数据处理方法。以下是可供选择的各种处理类型中的六种。

  • 实时数据处理

实时数据处理允许组织在几秒钟内从输入数据中提取和输出。这种类型最适合连续的数据流而不是整个数据库。

实时数据处理最常用于金融交易和 GPS(全球定位系统)跟踪。

  • 批量数据处理

批处理以块的形式处理数据。数据是在相对较短的时间内收集的,从每日分析到每周、每月和每季度。结果比实时处理更准确,并且能够处理更大量的数据。也就是说,这需要更多时间并且通常更复杂才能完成。

批处理数据用于员工的薪资系统以及分析短期销售数据。

  • 多重处理

多处理是一种高效的数据处理方法,其中将单个数据集分解为多个部分,并使用计算机系统内的两个或多个 CPU(*处理器)同时进行分析。这种类型用于大量原始数据,如果不进行并行处理,这些数据将花费特别长的时间进行分析。

多处理最常用于训练机器学习和人工智能模型以及天气预报数据。

  • 分布式数据处理

分布式数据处理 (DDP) 是一种将太大而无法存储在单个机器上的数据集分解并将它们分布到多个服务器的方法。使用此技术,单个任务可在多个计算机设备之间共享,从而缩短完成时间并降低依赖数据的企业的成本。

由于其高容错性,DDP 非常适合处理来自电信网络、对等网络和在线银行系统的原始数据。

  • 分时数据处理

分时数据处理允许多个用户和程序利用对同一个大型 CPU 单元的访问。这种计算机资源的分配允许使用相同的硬件资源同时处理多个不同的数据集。

分时数据处理主要用于处理来自多个端点的用户输入和请求的集中式系统。

  • 交易数据处理

交易数据处理用于处理源源不断的传入数据流,并在不中断的情况下将其发回。考虑到它是资源密集型的,它主要用于负责交互式应用程序的大型服务器计算机。

05、8 个原始数据示例

原始数据是一个适用于各种数据类型的术语。该标签的唯一标准是数据以最原始的形式存在,并且没有经过任何形式的清理或处理。

事实上,原始数据比您想象的更常见,因为它允许最大程度地*和控制从数据库中获取的信息。它可以分为两类,定量和定性数据,这取决于它们测量的值。

定量原始数据

定量数据是由可数数据组成的原始数据,其中每个数据点都有唯一的数值。此类数据最适合用于数学计算和技术统计分析。

定量原始数据的一些示例包括:

  • 客户信息

只要答案是以数值形式收集的,或者是通过预先确定的多项选择题收集的,没有*答案的余地,这就被认为是定量数据。这包括身高、年龄、体重、住宅邮政编码和教育水平等数据。

  • 销售记录

详细说明特定商品和服务的销售数量和频率的记录被视为可量化数据。这有助于确定哪种产品更受客户欢迎以及一年中的哪个时间。

结合客户信息,您甚至可以处理更有针对性的结果,例如发现哪些特定的客户群最有可能购买哪些产品。

  • 员工业绩

关于员工绩效的数据可以包括工作时间、整体生产率、工作质量和薪酬。它可以帮助计算贵公司全体员工的投资回报,确定他们带来的财务价值是否超过他们获得的报酬。

各种指标,无论是通过员工的数字或纸质调查提交,还是通过内部网络和活动监控软件收集,都是可量化的数据。

  • 收入和费用

收入和支出是公司的严格量化值。使用收入和支出数据可能涉及跟踪组织内的财务活动,包括来自已售商品和服务的收入以及投资中获得的资本,并将其与给定期间的支出进行比较。

此原始数据用于产生净收入,然后可以进一步分析以确定公司的哪些领域具有可接受或不可接受的投资回报水平。

定性原始数据

定性数据是可以以不可量化和非数字性质记录和观察的数据。它很少包含数字,通常是从每个参与者通过音频和视频记录,甚至是一对一访谈的不同答案中提取的。

定性原始数据的一些示例包括:

  • 调查的开放式回答

在开放式调查问题中,受访者可以*构建自己的答案,而不是选择一个预先确定的答案。原始数据不能像数字一样混为一谈,但它可以更真实、更深入地了解调查对象的想法和意见。

  • 图片

虽然可以用无数种方式对图片进行分类,但有很多重叠之处妨碍了定量测量方法的使用。在为计算机视觉功能训练机器学习模型时,使用原始图片数据是必不可少的。

  • 顾客评论

虽然产品或服务的 5 星或 10 星评级是定量数据,但客户留下的评论不是。需要按照从正面到负面的等级对答复进行分析,并突出显示每位客户的建议和痛点。

  • 新闻报道与舆论

从包含公司名称的新闻报道和文章中收集数据可能是了解公众舆论的好方法。然而,这些数据是定性的,不能立即分为正面和负面报道,以及在没有清理和处理数据集的情况下提到的赞扬和批评的细节。

作者:Anina Ot; 编译:帆软数据应用研究院-grace