文本标注方法、装置、设备及介质

文档序号:1861745 发布日期:2021-11-19 浏览:10次 >En<

阅读说明:本技术 文本标注方法、装置、设备及介质 (Text labeling method, device, equipment and medium ) 是由 甘丽婷 徐介夫 于 2021-08-24 设计创作,主要内容包括:本发明涉及人工智能技术领域,提出一种文本标注方法、装置、设备及介质,该方法通过根据历史修正词、历史相关词和历史修正标注信息生成历史修正信息集,获取当前辅助标注结果,并根据历史修正信息集对当前辅助标注结果进行第一次修正,得到并显示当前修正标注结果,获取当前修正信息,并对当前修正标注结果进行第二次修正,完成当前待标注文本的标注。本发明还提出一种文本标注装置、设备及介质,在数据标注员进行人工标注之前通过机器预标注,并将机器预标注的当前修正标注结果与当前待标注文本一并显示,数据标注员仅需要在当前已有标注的基础上进行修改补充,提升了标注效率,降低了标注成本,减少标注工作量,减少重复工作,提升用户体验度。(The invention relates to the technical field of artificial intelligence, and provides a text labeling method, a device, equipment and a medium. The invention also provides a text labeling device, equipment and a medium, wherein the text labeling device is pre-labeled by a machine before manual labeling is carried out by a data labeling person, the current correction labeling result pre-labeled by the machine is displayed together with the current text to be labeled, and the data labeling person only needs to modify and supplement the current existing label, so that the labeling efficiency is improved, the labeling cost is reduced, the labeling workload is reduced, the repeated work is reduced, and the user experience is improved.)

文本标注方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域,提供一种文本标注方法、装置、设备及介质。

背景技术

NLP(Natural Language Processing,自然语言处理)是人工智能(ArtificialIntelligence,AI)的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一。NPL在标注中的处理流程中需要收集语料,并对语料进行处理,例如“词性标注”,作为数据标注员,需要借助各种文本标注工具实现文本标注。

相关技术中,人工标注往往是由数据标注员对文本逐句阅读,对需要标注的词语依次进行打标,标注过程处理效率较低,标注成本高。

发明内容

本发明提供一种文本标注方法、装置、设备及介质,其主要目的在于预先通过预设初始辅助标注模型进行初步标注(预标注),再根据历史修正信息集进行第一次修正,得到当前修正标注结果并显示,此时可以获取数据标注员的指令所生成的当前修正信息对当前修正标注结果进行第二次修正,以完成当前待标注文本的标注,这样可以为数据标注员提供初步的标注建议,能够有效的减轻数据标注员的标注工作量,提升标注工作效率,降低成本。

为实现上述目的,本发明提供一种文本标注方法,该方法包括:

获取历史修正信息,所述历史修正信息包括历史修正词和历史修正标注信息,所述历史修正信息包括历史辅助标注结果的修改信息,所述历史辅助标注结果通过预设初始辅助标注模型对历史待标注文本进行标注得到;

获取所述历史修正词的历史相关词,并根据所述历史修正词、历史相关词和历史修正标注信息生成历史修正信息集,所述历史相关词与历史修正词的词义相近或相同;

获取当前辅助标注结果,并根据所述历史修正信息集对所述当前辅助标注结果进行第一次修正,得到当前修正标注结果,所述当前辅助标注结果通过将当前待标注文本输入到所述预设初始辅助标注模型中得到;

显示所述当前修正标注结果,获取当前修正信息,并对所述当前修正标注结果进行第二次修正,完成所述当前待标注文本的标注。

可选的,所述当前修正标注结果包括当前标注词和当前标注信息,所述当前修正信息的获取方式包括:

根据所述当前标注信息将所述当前修正标注结果分配给对应的修改执行对象;

获取各所述修改执行对象的对象修正信息,生成当前修正信息。

可选的,根据所述标注类别将所述当前修正标注结果分配给对应的修改执行对象之后,所述获取各所述修改执行对象的对象修正信息之前,所述方法还包括:

若至少两个所述修改执行对象同时对所述当前修正标注结果进行第二次修正,显示各所述当前标注词的当前标注状态,所述当前修正状态包括已标注、未标注、修改执行对象信息中至少之一。

可选的,所述当前修正信息包括当前修正词和当前修正标注信息,所述方法还包括:

获取所述当前修正词的当前相关词,并根据所述当前修正词、当前相关词和当前修正标注信息生成当前修正信息集,所述当前相关词的标注信息与所述当前修正标注信息相同,所述当前相关词与当前修正词的词义相近或相同;

根据所述历史修正信息集和当前修正信息集生成修正训练集;

根据所述修正训练集对所述预设初始辅助标注模型进行训练。

可选的,所述获取当前修正信息之前,所述方法还包括:

获取所述历史修正信息中各所述历史修正标注信息所对应的历史修正词的数量占比;

若所述数量占比高于预设占比阈值,将所述历史修正标注信息作为高风险标注信息,并进行提示。

可选的,将第二待标注文本输入到训练后的所述预设初始辅助标注模型,得到训练辅助标注结果,所述训练辅助标注结果包括标注词和训练标注信息;

将所述训练辅助标注结果与第二次修正后的所述当前修正标注结果进行比对,获取差异信息,所述第二次修正后的所述当前修正标注结果包括标注词和第二修正标注信息,所述差异词为所述第二修正标注信息和训练标注信息不同的所述标注词,所述差异信息包括差异词和所述差异词的第二修正标注信息;

获取第三方对所差异词的质检标注信息;

根据所述质检标注信息和第二修正标注信息确定所述修改执行对象的标注合格率。

可选的,若所述质检标注信息和第二修正标注信息不同,所述方法还包括以下至少之一:

根据所述质检标注信息对所述第二次修正后的所述当前修正标注结果进行第三次修正;

将所述当前修正信息、质检标注信息和差异词增加到所述历史修正信息。

此外,为实现上述目的,本发明还提供一种文本标注装置,所述装置包括:

历史修正信息获取模块,用于获取历史修正信息,所述历史修正信息包括历史修正词和历史修正标注信息,所述历史修正信息包括历史辅助标注结果的修改信息,所述历史辅助标注结果通过预设初始辅助标注模型对历史待标注文本进行标注得到;

历史相关词获取模块,用于获取所述历史修正词的历史相关词,并根据所述历史修正词、历史相关词和历史修正标注信息生成历史修正信息集,所述历史相关词的标注信息与所述历史修正标注信息相同,所述历史相关词与历史修正词的词义相近或相同;

第一修正模块,用于获取当前辅助标注结果,并根据所述历史修正信息集对所述当前辅助标注结果进行第一次修正,得到当前修正标注结果,所述当前辅助标注结果通过将当前待标注文本输入到所述预设初始辅助标注模型中得到;

第二修正模块,用于显示所述当前修正标注结果,获取当前修正信息,并对所述当前修正标注结果进行第二次修正,完成所述当前待标注文本的标注。

此外,为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上任一项实施例所述方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项实施例所述方法的步骤。

本发明提出的文本标注方法、装置、设备及介质,该方法通过获取历史修正信息、历史相关词,并根据历史修正词、历史相关词和历史修正标注信息生成历史修正信息集,获取当前辅助标注结果,并根据历史修正信息集对当前辅助标注结果进行第一次修正,得到当前修正标注结果,显示当前修正标注结果,获取当前修正信息,并对当前修正标注结果进行第二次修正,完成当前待标注文本的标注,在数据标注员进行人工标注之前进行了机器预标注,并将机器预标注的当前修正标注结果与当前待标注文本一并显示,数据标注员仅需要在当前已有标注的基础上进行修改补充,提升了标注效率,降低了标注成本,减少标注工作量,减少重复工作,提升用户体验度。

附图说明

图1为本发明一个实施例中提供的文本标注方法的一种流程示意图;

图2为本发明一个实施例中提供的文本标注方法的另一种流程示意图;

图3为本发明一个实施例中提供的文本标注方法的另一种流程示意图;

图4为本发明一个实施例中提供的文本标注方法的另一种流程示意图;

图5为本发明一个实施例中提供的文本标注装置的一种结构示意图;

图6为发明一个实施例中提供的计算机设备的一种结构示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

在一个实施例中,提供一种文本标注方法,参照图1所示,该方法包括以下步骤:

步骤S101:获取历史修正信息。

可选的,历史修正信息包括历史修正词和该历史修正词的历史修正标注信息,历史修正信息包括历史辅助标注结果的修改信息,历史辅助标注结果通过预设初始辅助标注模型对历史待标注文本进行标注得到。

换句话说,通过将历史待标注文本输入到预设初始辅助标注模型中进行标注,得到历史辅助标注结果,并通过人工或其他方式对历史辅助标注结果进行修正,将人工或其他方式所修改的词作为历史修正词,该历史修正词的最终标注信息作为历史修正标注信息,形成历史修正信息。该历史修正信息可以是通过对一个或多个历史待标注文本输入到预设初始辅助标注模型中所得到的历史辅助标注结果进行修改所得到的。

可选的,历史待标注文本及后续提到的当前待标注文本可以是一个文本也可以是多个文本。

在一个实施例中,预设初始辅助标注模型的获取方式包括:

获取预先通过人工标注完成的若干个样本词及其标注信息,构成样本集;

根据该样本集对预设初始Bert模型进行训练,得到预设初始辅助标注模型。

可选的,可以通过TensorFlow算法收集样本词、样本词的标注信息进行训练,得到Bert模型(预设初始辅助标注模型)。其中,样本词可以是采用新闻等网上的数据源或其他数据源,通过人工对样本词进行标注,得到该样本词的标注信息,根据标注词及标注信息形成样本集,将样本集分为训练集和验证集两部分,训练集用作训练预设初始Bert模型,验证集用作验证训练完的预设初始Bert模型的标注效果,当训练完的预设初始Bert模型的标注准确率达到预设标注准确率时,完成训练,得到预设初始辅助标注模型,后续基于该预设初始辅助标注模型对文本进行初步标注,降低数据标注员的工作量,提升工作效率。通过预设初始辅助标注模型可以实现自动化的为数据标注员等工作人员提供初步已经完成标注的文本,以供工作人员进行进一步标注,虽然初步标注的准确率可能不高,但至少存在一部分已经正确标注的语料,基于该方式,可以实现有效的减轻数据标注员等相关工作人员的标注工作量,提升标注工作效率。

S102:获取历史修正词的历史相关词,并根据历史修正词、历史相关词和历史修正标注信息生成历史修正信息集。

可选的,历史相关词与历史修正词的词义相近或相同。换句话说,历史相关词与历史修正词的标注信息相同,且词义相近或相同。由于预设初始辅助标注模型对于历史修正词的标注出现了问题,通常来说,对于该历史修正词的近义词或者同义词的标注,该预设初始辅助标注模型可能也会出现标注错误,故可以补充获取该历史修正词的历史相关词,以更好的实现对于预设初始辅助标注模型的标注错误的补充。

其中,历史相关词的标注信息与历史修正标注信息相同。例如,“战胜”、“打败”这两个词词义相近,如对“战胜了巴西”重的“战胜”标注成动词,则“打败了巴西”中的“打败”也是动词。

在一个实施例中,获取历史修正词的历史相关词包括:

将历史修正词输入预设文本相似度模型,得到若干个与历史修正词同一或近意的历史相关词。

可选的,预设文本相似度模型包括但不限于预设同义词和/或近义词词典等。

对于历史相关词的获取方式也可以采用本领域技术人员所知晓的方式实现。

S103:获取当前辅助标注结果,并根据历史修正信息集对当前辅助标注结果进行第一次修正,得到当前修正标注结果。

可选的,当前辅助标注结果通过将当前待标注文本输入到预设初始辅助标注模型中得到,当前辅助标注结果包括若干个当前标注词和该标注词的当前标注信息。

数据标注员当下需要对当前待标注文本进行标注,此时可以先借助预设初始辅助标注模型对该当前待标注文本进行第一次粗略标注,得到当前辅助标注结果,由于历史修正信息集中包括了已经知晓的预设初始辅助标注模型可能存在的标注不准确的历史修正词、历史相关词及其历史修正标注信息,故可以先通过该历史修正信息集对当前辅助标注结果进行第一次修正,解决当前辅助标注结果中可能存在的一些已知标注错误,这样可以有效提升数据标注员对于该方法的满意度,避免数据标注员在之前已经修改过的词语的错误继续存在与后续的标注工作中,使得体验度降低。例如,数据标注员会对批量文本进行标注,有些文本是比较相似的,或者是关联的,但每次预设初始辅助标注模型的输出结果均是错误的,故每次对于同样的错误都需要数据标注员重新进行标注。为尽量避免重复工作,可以参考之前标注过的内容,通过记录一个或多个数据标注员此批标注的行为动作和数据(历史修正信息),通过历史修正信息集对当前辅助标注结果进行第一次修正,可以实现在标记当前待标注文本的时候,避免重复之前发生过的标注错误,使得当前修正标注结果不再存在之前已经修正过的标注错误,呈现给数据标注员标注的更加准确的包括当前修正标注结果的当前待标注文本,进一步提升数据标注员的标注效率,提升数据标注员的满意度。

S104:显示当前修正标注结果,获取当前修正信息,并对当前修正标注结果进行第二次修正,完成当前待标注文本的标注。

当前修正标注结果包括当前待标注文本中各个词语的标注信息,对于未标注的词语其标注信息为空,将当前修正标注结果和当前待标注文本显示给数据标注员,数据标注员通过人工或其他方式对当前修正标注结果进行评价,该评价过程包括但不限于漏标注的词语补充标注,和/或,已标注的词语发生了误标注,重新赋予新的标注信息,根据其修改意图生成当前修正信息,并根据该当前修正信息对当前修正标注结果进行第二次修正,以完成当前待标注文本的标注。

通过上述方式可见,通过对当前待标注文本经预设初始辅助标注模型进行初步标注得到当前辅助标注结果,再根据历史修正信息集对初步标注的当前辅助标注结果进行第一次修正,得到当前修正标注结果,可以给到数据标注员呈现一版包括一部分正确标注信息的当前待标注文本,数据标注员此时只需要对标注错误的部分进行修改,以及将遗漏标注的词语进行补充标注即可,可以有效的减少数据标注员的无意义的重复性工作,降低数据标注员的工作量,提升数据标注员的工作效率,同时也可以降低标注成本,提升用户体验度。

可选的,当前待标注文本、历史待标注文本包括但不限于医疗病例、医疗新闻等。

在一个实施例中,当前修正标注结果包括当前标注词和当前标注信息,参见图2,当前修正信息的获取方式包括:

S201:根据当前标注信息将当前修正标注结果分配给对应的修改执行对象;

S203:获取各修改执行对象的对象修正信息,生成当前修正信息。

可选的,修改执行对象包括一个或多个数据标注员。

可选的,可以预先根据标注信息将当前标注结果分配为若干个小组,再根据每一个修改执行对象所对应的标注信息对应分配相应的小组给到该修改执行对象。

可选的,当前标注信息可以是词性标注,如名词、动词、形容词等;当前标注信息也可以是实体标注,如人名、地名、产品名称、机构、公司等;当前标注信息还可以是既包括词性标注也包括实体标注等。当前标注信息还可以根据本领域技术人员根据需要的规则进行设定,在此不做限定。

预先对各修改执行对象和当前标注信息之间的映射关系进行设定,然后根据该映射关系将包括有不同当前标注信息的当前修正标注结果分配给对应的修改执行对象。例如,当前标注信息包括实体标注,映射关系包括人名对应修改执行对象1,公司对应修改执行对象2,地点对应修改执行对象3,机构对应修改执行对象2,将当前待标注文本显示给修改执行对象1-3,并将当前修正标注结果中标注信息为人名的部分展示给修改执行对象1,公司和机构展示给修改执行对象2,地点展示给修改执行对象3,也即将当前待标注文本的标注结果根据映射关系各修改执行对象显示对应的当前标注信息。这样可以实现让数据标注员专心标注一个或多个指定类别的标注信息,工作更加简单,熟练后标注速度和准确率更加可靠。

修改执行对象如果新增了某一些词语的标注信息或者对当前已经标注的词语更改了标注信息,则将修改或新增的标注词和该标注词的标注信息生成该修改执行对象的对象修正信息,将各个修改执行对象的对象修正信息进行整合,生成当前修正信息。

在一个实施例中,继续参见图2,根据标注类别将当前修正标注结果分配给对应的修改执行对象之后,获取各修改执行对象的对象修正信息之前,该方法还包括:

S202:若至少两个修改执行对象同时对当前修正标注结果进行第二次修正,显示各当前标注词的当前标注状态。

其中,当前修正状态包括已标注、未标注、修改执行对象信息中至少之一。当前标注状态的显示方式包括但不限于颜色区分、字体区分等本领域技术人员所能需要的方式。

通过该方式,可以实现多个修改执行对象(数据标注员)同时对一个当前待标注文本执行标注操作,能够实现多人协同工作,进一步提升工作效率。同时通过这样的方式也可以实现分组对一个当前待标注文本进行标注,提升标注准确性。

在一个实施例中,当前修正信息包括当前修正词和当前修正标注信息,参见图3,该方法还包括:

S301:获取当前修正词的当前相关词,并根据当前修正词、当前相关词和当前修正标注信息生成当前修正信息集;

S302:根据历史修正信息集和当前修正信息集生成修正训练集;

S303:根据修正训练集对预设初始辅助标注模型进行训练。

可选的,当前相关词的标注信息与当前修正标注信息相同,当前相关词与当前修正词的词义相近或相同。

根据当前修正词确定当前相关词的方式与根据历史修正词确定历史相关词的方式类似,在此不再赘述。相似的,当前修正信息集的生成方式与历史修正信息集的生成方式类似,在此不做赘述。

根据修正训练集对预设初始辅助标注模型进行训练的方式,与前述根据样本集对预设初始Bert模型进行训练,得到预设初始辅助标注模型的方式类似,在此不再赘述。

通过根据修正训练集对预设初始辅助标注模型进行训练,可以实现对预设初始辅助标注模型不断的根据当下的需要进行完善,进一步的提升由模型执行的初步标注的准确率,降低数据标注员的工作量,提升数据标注员对于辅助标注的满意度。

在一个实施例中,获取当前修正信息之前,方法还包括:

获取历史修正信息中各历史修正标注信息所对应的历史修正词的数量占比;

若数量占比高于预设占比阈值,将历史修正标注信息作为高风险标注信息,并进行提示。

预设占比阈值可以由本领域技术人员根据需要进行设定。

换句话说,可以通过预先统计各种标注信息发生人工修改的概率,若某一类标注信息发生人工修改的概率较高,也即其数量占比较高,则说明预设初始辅助标注模型对于该类别的标注信息的标注效果并不好,则可以通过提示的方式提醒对应的数据标注员注意。例如,历史修正信息中共有历史修正词300个,其中标注为人名的历史修正词为300个,则说明该预设初始辅助标注模型对于人名的标注效果并不佳,此时可以在显示当前修正标注结果时,提示人名标注效果可靠性差,请对应的数据标注员注意,这样,数据标注员对应当前待标注文本中已经标注为人名的词语和尚未标注的词语中的人员将会更加关注,可以减少标注错误的可能性。

可选的,提示的方式可以采用滚动字幕、语音播报等方式或其他本领域技术人员所需要的方式实现,在此不做限定。

在一个实施例中,该方法还包括对修改执行对象的标注合格率的检测,具体的,参见图4,该方法还包括:

S401:将第二待标注文本输入到训练后的预设初始辅助标注模型,得到训练辅助标注结果;

S402:将训练辅助标注结果与第二次修正后的当前修正标注结果进行比对,获取差异信息;

S403:获取第三方对所差异词的质检标注信息;

S404:根据质检标注信息和第二修正标注信息确定修改执行对象的标注合格率。

可选的,训练辅助标注结果包括标注词和训练标注信息,差异信息包括差异词和该差异词的第二修正标注信息,第二次修正后的当前修正标注结果包括标注词和第二修正标注信息,差异词为第二修正标注信息和训练标注信息不同的标注词。

换句话说,分别获取第二待标注文本通过训练后的预设初始辅助标注模型所得到的结果(训练辅助标注结果)、第二待标注文本经第二次修改后的最终标注结果(当前修正标注结果),将两个结果进行比对,可能存在某一个词在两种结果中的标注信息不一致,上述不一致可能是某一个词M在训练辅助标注结果中的标注信息为S,而在当前修正标注结果中没有标注信息或者标注信息不是S而是X,此时,该词M即为差异词,差异信息包括差异词S和标注信息X。相似的,某一个词N在训练辅助标注结果中没有标注信息(标注信息为空)或者标注信息为O,而在当前修正标注结果中标注信息不是O而是P,此时,该词N即为差异词,差异信息包括差异词N和标注信息P。

可选的,第三方可以是质检人员,也可以是若干个仅针对某一标注信息的预先训练好的单项标注模型。当第三方为质检人员时,可以是通过该质检人员对于各个差异词进行评定,该差异词所对应的第二修正标注信息是否正确,若不正确提供正确的标注信息作为质检标注信息,若正确则将第二修正标注信息作为质检标注信息。此时质检人员可以是一个也可以是多个,多个质检人员进行评定得到最终的质检结果。当第三方为单项标注模型时,由于单项标注模型的标注准确率往往高于权项标注模型,故可以借助单项标注模型分别对各标注信息进行标注,得到质检标注信息,并根据该质检标注信息对第二修正标注信息进行评定。对于单项标注模型的训练,可以采用预设初始辅助标注模型训练时使用的对应的标注信息的数据集进行训练,也可以由本领域技术人员所知晓的其他训练方式实现。

若质检标注信息和第二修正标注信息相同,则说明修改执行对象的标注工作时合格的,否则则说明修改执行对象的标注是不合格的。

一种标注合格率的确定方式如下:

标注合格率=(质检标注信息与第二修正标注信息不同的差异词的数量/差异词总数量)*100%。

可选的,可以根据该标注合格率来评价修改执行对象的标注可靠性,还可以对该修改执行对象进行绩效评价。通过对各个修改执行对象的标注合格率的确定,还可以促进数据标注员更加谨慎认真的工作,提升准确率、严谨性和合格率。

可选的,若修改执行对象需要对至少两个标注信息进行标注,此时可以分别确定该修改执行对象对于每一个标注信息的类别标注合格率,并根据类别标注合格率调增该修改执行对象的工作内容。例如,某一修改执行对象在标注信息为A时,类别标注合格率高达100%,但标注信息为B时,类别标注合格率仅为50%,则可以建议该修改执行对象仅对标注信息A进行标注。

在一个实施例中,若质检标注信息和第二修正标注信息不同,该方法还包括以下至少之一:

根据质检标注信息对第二次修正后的当前修正标注结果进行第三次修正;

将当前修正信息、质检标注信息和差异词增加到历史修正信息。

若质检标注信息与第二修正标注信息不同,说明第二次修正后的当前修正标注结果中仍然存在错误,需要及时对该错误进行修改,也即对其进行第三次修正,以保证对当前待标注文本的标准准确。

对于质检过程中所发现的错误,以及当前所发现的预设初始辅助标注模型和历史修正信息中缺失的错误,也需要及时增加到历史修正信息中,以避免相同或相似的错误在此发生,提升用户体验。

在一些实施例中,该方法还包括根据包括当前修正信息、质检标注信息和差异词的历史修正信息对预设初始辅助标注模型进行再次训练,提升该模型的标注准确性。

在一些实施例中,还可以通过多组修改执行对象分别对同一个当前待标注文本进行标注,获取各组的标注结果,并进行比对,以找到差异信息,再交由第三方进行质检。

通过对修改执行对象的标注结果进行质检,可以促进标注工作的准确严谨。

下面通过一个具体的实施例,示例性的说明上述文本标注方法,该具体的文本标注方法包括:

步骤一:获取预设初始辅助标注模型,并对历史待标注文本进行预标注,得到历史辅助标注结果。

其中,预设初始辅助标注模型可以通过TensorFlow算法对收集样本词,并对样本词进行标注,形成样本集,根据该样本集对预设初始模型进行训练,得到的Bert模型(预设初始辅助标注模型)。

通过预设初始辅助标注模型对历史待标注文本进行预测,将预测结果直接进行标注,作为初始化的推荐标注,得到历史辅助标注结果。

步骤二:记录、分析数据标注员对于历史辅助标注结果的修正操作,获取数据标注员对历史辅助标注结果中哪一个词进行了修正,将该词作为历史修正词,以及所赋予的历史修正词的历史修正标注信息,根据历史修正词和历史修正标注信息自动生成历史修正信息,作为一种修正规则,应用于后续对于其他文本的预标注。

可选的,还可以预先对历史修正词进行扩充,例如可以根据预设文本相似度模型获取历史修正词的近义词或同义词,增加到历史修正信息中,生成历史修正信息集。该预设文本相似度模型可以是基于Bert的文本相似度模型。例如,根据预设文本相似度模型确定到历史修正词“战胜”的历史相关词“打败”,在历史修正信息中,“战胜了巴西”中的“战胜”标注成动词,则对于“打败”在后续的文本标注中也会自动标注动词,如“打败了巴西”中的“打败”将会被标注为动词。

步骤三:对当前待标注文本进行预标注。

其中,当前待标注文本可以先通过预设初始辅助标注模型进行标注,得到当前辅助标注结果,再根据数据标注员的自主选择,若获取到数据标注员第一次修正指令,则可以将该当前辅助标注结果根据之前生成的历史修正信息集进行第一次修正,得到当前修正标注结果。

可选的,第一次修正指令可以包括仅使用历史修正信息对于当前辅助标注结果进行修正的指令,第一次修正指令可以包括仅使用历史修正信息集对于当前辅助标注结果进行修正的指令,在此不做限定。

步骤四:显示当前修正标注结果给数据标注员,获取数据标注员的当前修正信息,并对当前修正标注结果进行第二次修正,完成当前待标注文本的标注。

此时数据标注员将能够看到已经完成预标注的当前待标注文本,也即,当前修正标注结果中所标注的词以及该词所对应的标注信息将一并显示给数据标注员,获取数据标注员的修改指令生成当前修正信息,对当前修正标注结果进行第二次修正,以完成该当前待标注文本的人工标注。

可选的,为了提高标注准确性和效率,可以分组标注。例如,预先设定组1的数据标注员标注实体标签1(如地区),组2的数据标注员标注实体标签2(人名),组3的数据标注员标注实体标签3(公司)。一种可能的实施例中,可以将当前待标注文本的全文以及当前标注信息为公司的标注信息显示给组3;将当前待标注文本的全文以及当前标注信息为人名的标注信息显示给组2等。

可选的,为提高效率,可以多人同时在线标注,批量标注若干个文本,可以同步显示当前处于显示状态的各个词语的当前标注状态,如未标注,已标注,以及显示在线操作数据标注员的名称、代码或其他识别信息。

由于数据标注员会对批量文本进行标注,有些文本是比较相似的,或者是关联的,但如每次都要自己重新全部进行人工标注,将会有很大工作量,浪费资源。为避免重复工作,可以参考之前标注过的内容(历史修正信息),通过客户端(web)等记录数据标注员之前标注历史待标注文本时的行为动作和数据作为历史修正信息,在标记下一个文本(当前待标注文本)的时候,也会先自动把之前记录的新规则(历史修正信息)应用在这个文本(当前待标注文本)标注里。比如,上个文本标注了“李三”是人物,“XX证券”是公司,那处理下个文本之前,也会先检测这些数据(当前辅助标注信息),如果有“李三”、“XX证券”,且并没有将“李三”标注为人物、“XX证券”标注为公司(可能是没有标注信息也可能是标注不一致),则会自动给“李三”标注为人物,“XX证券”标注为公司。可选的,也可以在对当前待标注文本的历史辅助标注信息进行修改之前,先获取历史修正词的历史相关词,如上文中提到的“李三”其还有一个外号为“可爱”,此时将“可爱”增加到历史修正信息中生成历史修正信息集,再对当前待标注文本的历史辅助标注信息进行修改时,则先检测当前辅助标注信息,在上述检测“李三”、“XX证券”的基础上,还会检测“可爱”,如果有“可爱”但没有进行标注,或标注不是人物,则将“可爱”的标注信息修正为人物。这样可以极大的减少数据标注员的工作量,提升工作效率。

步骤五:对预设初始辅助标注模型进行训练。

通过上述步骤已经积累了一些预设初始辅助标注模型的标注不准确的案例,及其修正信息,此时可以通过获取当前修正词、当前相关词、当前西政标注信息、历史修正信息集作为训练集对预设初始辅助标注模型进行训练,以完善该模型。

需要说明的是,对于预设初始辅助标注模型的训练,可以在训练集的基础上采用本领域技术人员所知晓的方式进行训练。

可选的,可以是在每一次完成一组当前待标注文本时,均收集其中发生修正的词语及其标注信息对预设初始辅助标注模型进行一次训练,也可以是是在收集到一定数量的修正的词语或经过一定时间后对预设初始辅助标注模型进行一次训练。这样可以节约资源,避免多次训练浪费更多的算力资源。

步骤六:确定数据标注员的标注合格率。

通过训练后的预设初始辅助标注模型对当前待标注文本进行标注得到训练辅助标注结果,将该训练辅助标注结果与步骤四得到的该数据标注员的经第二次修正后的当前修正标注结果进行比对,检测差异信息。将差异信息中的差异词发送给对应的审核人员,由审核人员进行标注,进而得到质检标注信息。根据质检标注信息与差异词的经第二次修正后的当前修正标注结果中的标注信息的一致情况得到该数据标注员的标注合格率。该标注合格率可以是根据总标注词量与差异词中标注信息与质检标注信息不一致的差异词数量确定,或,根据当前待标注文本的总词数(总字数)与差异词中标注信息与质检标注信息不一致的差异词数量(差异词字数)确定。

可选的,也可以直接以训练辅助标注结果为准,数据标注员的标注结果与训练辅助标注结果不一致的词均作为差异词,进而确定该数据标注员的标注合格率。

通过自动检测具体某个数据标注员的标注合格率,可以提升数据标注员的准确性、严谨性和合格率。

可选的,如果某一个差异词经第二次修正后的当前修正标注结果中的标注信息与质检标注信息不一致,需要将第二次修正后的当前修正标注结果中的标注信息修改为质检标注信息,并将该质检标注信息与差异词更新到历史修正信息或历史修正信息集中,以后类似的数据都可以直接应用此次质检标注信息。

可选的,可以在数据标注员的工作界面实时显示该数据标注员的标注合格率,以及当前平均标注合格率和最高标注合格率,以使得该数据标注员了解其当前的工作准确性,若其标注合格率处于团队中的较低水平,可以及时让其警觉,并自主或寻求标注合格率较高的同事的帮助,提升自身的工作能力。同时该方式也使得对应的管理人员及时了解其所管理的数据标注员的工作状态。对于标注合格率较低的数据标注员根据其状态持续的时长,管理人员可以及时的对其进行干预,以提升团队的标注工作的可信度。

可选的,对于质检过程中所检查到的出现错误的差异词,可以反馈给对应的数据标注员,一方面如质检错误,可以及时申诉,解决问题。另一方面也可以让其知晓之前的标注错误,加以分析,若是疏忽问题,则下次注意,若是自身认知问题,可以及时补齐短板,避免后续工作中继续标注失误。

可选的,也可以对质检过程中所检查到的出现错误的差异词的标注信息进行统计,若某一个标注信息的差异词出现频次过高,则可以向相关工作人员发出提示,进行对应的培训或对预设初始辅助标注模型进行有针对性的加强训练,以提升该标注信息的词语的标注准确性。

步骤七:高风险标注信息的提示。

可选的,可以通过历史修正信息中各历史修正标注信息所对应的历史修正词的数量占比来确定高风险标注信息,进行提示。例如可以自动检测标注合格率偏低的标注信息,在数据标注员的标注界面显示特殊的提示。

比如,历史修正信息中历史修正词的数量共有300个,其中历史修正信息为“公司”的历史修正词为280个,其占比高于预设数量占比,则可以将“公司”作为高风险标注信息,在显示当前待标注文本及其预标注信息时,在显示界面提示“公司”的标注可靠性差,以引起数据标注员的重视,使得其在标注为“公司”的词语多加关注,并对全文中可能出现公司词语的描述更加关注,以实现更加准确的对当前待标注文本进行标注。

可选的,历史修正信息还包括该历史修正词在历史辅助标注信息中的辅助标注信息,此时,还可以根据历史修正信息确定某一标注信息的修正原因,比如某一个词M通过预设初始辅助标注模型标注后标注为A,但经过人工修正后,其历史修正标注信息为B,则其修正原因为标注错误,某一个词N通过预设初始辅助标注模型标注后标注为空,也即没有对其进行标注,但经过人工修正后,其历史修正标注信息为C,其修正原因为遗漏标注。此时可以通过对高风险标注信息的修正原因进行确定,将出现次数较多的修正原因显示给数据标注员,可以进一步方便数据标注员的工作。比如,若修正原因是由于遗漏标注,则数据标注员重点需要关注当前尚未标注的词语,进行补充标注,次要精力放在其他已经标注的词语是否标注准确上面。若修正原因是由于标注错误,则数据标注员重点需要关注当前已经标注的词语是否标注的准确,并对于标注错误的词语进行人工修正,次要精力放在其他尚未标注的词语上面。

可选的,对于不同的标注信息可以采用不同的字体、颜色等方式加以区分,以方便数据标注员的工作。

可选的,该提示可以是在显示界面的顶部或底部采用滚动字幕的方式加以提示,也可以是通过气泡字的方式加以提示,还可以是本领域技术人员所知晓的其他方式实现。

需要说明的是步骤六和步骤七的执行顺序在此不做限定。

本实施例提供了一种文本标注方法,该方法通过获取历史修正信息、历史相关词,并根据历史修正词、历史相关词和历史修正标注信息生成历史修正信息集,获取当前辅助标注结果,并根据历史修正信息集对当前辅助标注结果进行第一次修正,得到当前修正标注结果,显示当前修正标注结果,获取当前修正信息,并对当前修正标注结果进行第二次修正,完成当前待标注文本的标注,在数据标注员进行人工标注之前进行了机器预标注,并将机器预标注的当前修正标注结果与当前待标注文本一并显示,数据标注员仅需要在当前已有标注的基础上进行修改补充,提升了标注效率,降低了标注成本,减少标注工作量,减少重复工作,提升用户体验度。

在一个实施例中,本发明还提供了一种文本标注装置500,参见图5,该装置包括:

历史修正信息获取模块501,用于获取历史修正信息,历史修正信息包括历史修正词和历史修正标注信息,历史修正信息包括历史辅助标注结果的修改信息,历史辅助标注结果通过预设初始辅助标注模型对历史待标注文本进行标注得到;

历史相关词获取模块502,用于获取历史修正词的历史相关词,并根据历史修正词、历史相关词和历史修正标注信息生成历史修正信息集,历史相关词的标注信息与历史修正标注信息相同,历史相关词与历史修正词的词义相近或相同;

第一修正模块503,用于获取当前辅助标注结果,并根据历史修正信息集对当前辅助标注结果进行第一次修正,得到当前修正标注结果,当前辅助标注结果通过将当前待标注文本输入到预设初始辅助标注模型中得到;

第二修正模块504,用于显示当前修正标注结果,获取当前修正信息,并对当前修正标注结果进行第二次修正,完成当前待标注文本的标注。

本实施例中,当前修正标注结果包括当前标注词和当前标注信息,当前修正信息的获取方式包括:

根据当前标注信息将当前修正标注结果分配给对应的修改执行对象;

获取各修改执行对象的对象修正信息,生成当前修正信息。

本实施例中,根据标注类别将当前修正标注结果分配给对应的修改执行对象之后,获取各修改执行对象的对象修正信息之前,还包括:

若至少两个修改执行对象同时对当前修正标注结果进行第二次修正,显示各当前标注词的当前标注状态,当前修正状态包括已标注、未标注、修改执行对象信息中至少之一。

本实施例中,当前修正信息包括当前修正词和当前修正标注信息,该装置还包括训练模块,该训练模块用于:

获取当前修正词的当前相关词,并根据当前修正词、当前相关词和当前修正标注信息生成当前修正信息集,当前相关词的标注信息与当前修正标注信息相同,当前相关词与当前修正词的词义相近或相同;

根据历史修正信息集和当前修正信息集生成修正训练集;

根据修正训练集对预设初始辅助标注模型进行训练。

本实施例中,该装置还包括提示模块,该提示模块用于获取当前修正信息之前,获取历史修正信息中各历史修正标注信息所对应的历史修正词的数量占比;若数量占比高于预设占比阈值,将历史修正标注信息作为高风险标注信息,并进行提示。

本实施例中,该装置还包括质检模块,该质检模块用于:

将第二待标注文本输入到训练后的预设初始辅助标注模型,得到训练辅助标注结果,训练辅助标注结果包括标注词和训练标注信息;

将训练辅助标注结果与第二次修正后的当前修正标注结果进行比对,获取差异信息,第二次修正后的当前修正标注结果包括标注词和第二修正标注信息,差异词为第二修正标注信息和训练标注信息不同的标注词,差异信息包括差异词和差异词的第二修正标注信息;

获取第三方对所差异词的质检标注信息;

根据质检标注信息和第二修正标注信息确定修改执行对象的标注合格率。

本实施例中,若质检标注信息和第二修正标注信息不同,该装置还包括第三次修正模块和/或增加模块,其中,

第三次修正模块用于根据质检标注信息对第二次修正后的当前修正标注结果进行第三次修正;

增加模块用于将当前修正信息、质检标注信息和差异词增加到历史修正信息。

本实施例提供了一种文本标注装置,该装置通过获取历史修正信息、历史相关词,并根据历史修正词、历史相关词和历史修正标注信息生成历史修正信息集,获取当前辅助标注结果,并根据历史修正信息集对当前辅助标注结果进行第一次修正,得到当前修正标注结果,显示当前修正标注结果,获取当前修正信息,并对当前修正标注结果进行第二次修正,完成当前待标注文本的标注,在数据标注员进行人工标注之前进行了机器预标注,并将机器预标注的当前修正标注结果与当前待标注文本一并显示,数据标注员仅需要在当前已有标注的基础上进行修改补充,提升了标注效率,降低了标注成本,减少标注工作量,减少重复工作,提升用户体验度。

应当知晓的是,上述文本标注装置系统实质上是设置了多个模块用以执行上述任一实施例中的文本标注方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。

在一个实施例中,参见图6,本实施例还提供了一种计算机设备600,包括存储器601、处理器602及存储在存储器上并可在处理器上运行的计算机程序,所述处理器602执行所述计算机程序时实现如上任一项实施例所述方法的步骤。

在一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项实施例所述方法的步骤。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

22页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:确定建立仓库地址的方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!