【自有技术大讲堂】数据驱动的AI(系列2):AI数据标注管理方法

网站首页    行业信息    【自有技术大讲堂】数据驱动的AI(系列2):AI数据标注管理方法

一、什么是AI数据标注

 

数据标注是对未经处理的初级数据, 包括语音、图片、文本、视频等进行加工处理, 并转换为机器可识别信息的过程。原始数据一般通过数据采集获得, 随后的数据标注相当于对数据进行加工, 然后输送到人工智能算法和模型里完成调用。

 

在工业场景的AI落地过程中,数据的标注占了相当大的工作量,如何快速有效的实施数据标注,需要通过相应的标注管理手段来保证。而相应的管理对象,即参与实施数据标注人员,包括且不限于开发人员、产品团队和现场操作员。

 

二、数据标注过程中的挑战和问题

 

出现的问题经常可以归结为一种错误的信念,即数据注释可以完全放手:AI开发人员相信他们的指令能够清晰传递给下游的使用者和维护者(包括现场技术支持人员和客户方的操作人员)。当我们相信任务“如此简单!”时,往往会缺少足够标注信息与方法的传递,往往导致混乱的反馈,并且下游人员会对任务感到沮丧,这不可避免地不像看起来那么简单。

 

让我们举个例子,这是一个标记在线评论是否“恶意”的简单任务,光就一条在线评论,就有大约一半的标注者认为它“恶意”了,而另一半则没有。我们看到这项任务很容易描述,但挑战在于细节。确切地说,如何判定“恶意”?判定“恶意”的界限在哪?

 

 

如果每项任务都以这样或那样的方式出现。要求下游人员执行标注任务,例如用文本标记图像或将其分类到某个类别,似乎是一项简单的任务,但不同解释的巨大多样性会对下游工作人员生成的数据质量产生不利影响,进而影响到AI模型的最终效果,这是我们不想看到的。

 

三、一些解决方法与步骤

 

3.1 开发人员需要自己标记许多示例。

一般来说,开发人员(AI算法工程师)需要自己进行一定程度的标记,以了解他们正在构建的概念。李飞飞(美国国家工程院院士、斯坦福大学教授)说过,你应该总是自己标记前一千个样本,这样你才能真正理解你的数据。通常,当您标记更多时,您会意识到您最初对类或注释的概念化并不完全正确,您需要改变标记数据的方式。开发人员要一开始就意识到你的任务和下游工作人员之间存在大量潜在的误解,这使得你不断迭代你的任务设计变得至关重要。

 

3.2 始终从小范围任务开始。

不要立即启动大规模,大范围的标注任务。相反,首先让同事或同事测试您的产品。在你开始扩大你的任务之前,向少数人发布你的任务。Jacob Nielsen在人机交互中的一个经典结果表明,界面中的绝大多数可用性错误可以被五到七个人发现。通过试点你的标签任务——首先是你自己,然后是几个同事,然后是几个能给你反馈的下游人员(例如客户端的产线质检人员),等等——你可以及早发现你发布的标注任务中的漏洞,并给自己一个迭代的机会。迭代可以改进你的数据集和你的模型。

 

3.3 标注纠错逻辑

当出现问题时,您(开发人员)的反应应该是“我在传达我的意图时做错了什么?”,而不是“他们为什么不注意? ”

误解和缺乏明确性无处不在,一个好的做法是提供充分的准确的示例和完备的标注说明(往往以文档形式提供),并依靠下游工作人员的反馈来迭代和改进您的任务设计。

 

3.4 通过反馈进行培训

开发人员在派发标注任务之前,往往会注重对相关下游人员的培训,而在启动之后,同样也需要通过下游任务执行的进度来获取反馈,针对性的培训。任务设计中应该始终有这样一个阶段。

 

四、高视科技数据标注管理方法相关介绍

 

高视科技的GoMind平台,提供多种适用于工业AI场景的标注工具,包括分类标注,目标检测标注,分割标注等。使用智能标注,批量标注等方式降低标注工作量。通过多用户,多任务的标注管理,实现标注任务的下发,并发,反馈优化等一系列闭环,最终生成高质量,高性能的标注数据集,为AI模型在工业场景的良好落地打下坚实的数据基础。

 

2022年6月22日 17:12