如何提高数据标注质量,提供精细化标注数据集?丨曼孚科技

时间:2024-02-24 12:33:18

监督学习下的深度学习算法训练十分依赖于标注数据,然而目前数据标注行业在精细化运营方面仍有诸多不足。

相关数据显示,当下数据标注行业单次交付达标率低于50%,三次内交付达标率低于90%,远远不能满足AI企业的需求。​

在AI商业化落地进程加快的大背景下,低质量的标注数据集已经成为阻碍行业发展的重要因素,如何提高标注数据质量成为众多数据服务提供商寻求行业突破的重点。

提高标注质量,可以从以下几个方面入手:

一.建立完善的人员培训、管理体系

正如“人工智能”这四个字所言,人工智能行业从来都是先有“人工”,后有“智能”。数据标注行业对于人力的依赖程度十分严重,因此标注员的素养直接影响最终产出数据的质量。

目前数据标注行业主流的项目运行方式有三种,分别是转包、众包与自建标注团队。转包与众包模式较为灵活,但因为对人员的不可把控性,所以很难保证交付数据的质量。

曼孚科技通过自建标注团队,建立完善的人员培训、管理体系,提高标注员应对不同标注场景的能力,可有效提高标注效率,规避不必要的标注质量问题。

数据标注团队

二.建立完善的数据管理、质检体系

数据服务企业根据行业经验制定质量监管制度,通过贯通整个业务流程的一体化数据平台对各个环节人员行为和数据质量进行把控,可有效提高标注数据质量。

具体措施如下:

1.拥有实时量化的可视化管理系统

随着AI基础数据需求多样化,以及复杂程度的提升,以往项目经理“人管人”的管理方式和使用单一工具应对单一需求的执行方式在质量和效率上都显得捉襟见肘。

因此,拥有一套自主研发管理和执行一体化平台,能在提升人机协作效率,扩大产能,灵活可变地增加标注能力之外,准确地把控每一环节的数据质量问题。

2.拥有多重追责性的全查、抽查机制

建立追责机制有助于提升数据标注员的责任感与危机意识,降低潜在犯错的概率。

3.拥有生物识别监控能力

提高生物识别监控能力,可有效提高数据标注员的工作效率与质量,降低出错的概率。

三.建立AI标注、AI质检体系

如果说人工智能是加速数字化革命的发动机,那数据标注行业就在为其生产汽油,同时这台发动机也在反哺数据标注行业。

通过在标注过程中引入AI进行辅助,可以有效提高标注效率与标注质量。以曼孚科技标注平台为例,预标注技术加持下,标注工具会自动识别图像中的数据,做到自动拉框、自动转写,标注员只需要在预标注的结果上略作修正即可。

除了在标注过程中引入AI进行辅助以外,在质检环节也可以引入AI进行辅助。目前主流的质检方式是人工质检,但是人工质检在准确率、成本把控和时效性方面都大有不足,尤其在面对海量数据时,抽检的形式并不能做到全数据覆盖,很容易忽略或遗漏错误数据,降低整体数据集的质量。

而AI可以有效避免上述问题。与人工质检相比,AI的成本更低且可以做到24小时无休,理论上可以做到质检全部数据,这是实现人力驱动向技术驱动的关键一步。

通过以上这些方式,可以有效提高标注质量,为AI行业提供更加精细化的数据集产品和高度定制化数据服务,助力AI商业化落地进程。