在线人工中文文本标注系统

文档序号:1556937 发布日期:2020-01-21 浏览:14次 >En<

阅读说明:本技术 在线人工中文文本标注系统 (On-line artificial Chinese text marking system ) 是由 罗冠 吴超尘 胡卫明 于 2019-09-12 设计创作,主要内容包括:本发明属于文本标注领域,具体涉及一种在线人工中文文本标注系统,旨在解决现有人工中文文本标注系统无法实现多人协作标注的问题。本发明系统包括:服务器、第一、二客户端;第一、二客户端分别与服务器相连;服务器包括数据库;第一客户端包括管理模块;第二客户端包括标注、重分词、切换模块;管理模块配置为拆分标注文本,并上传数据库;数据库配置为根据分配指令将标注项目与标注用户关联;标注模块配置为对标注项目中的语句进行标注;重分词模块配置为依据输入指令对标注项目的语句进行重新分词;切换模块配置为对标注、重分词模块工作状态的切换。本发明实现了多人协作标注,并提高了文本标注的准确率和效率。(The invention belongs to the field of text labeling, particularly relates to an online artificial Chinese text labeling system, and aims to solve the problem that the conventional artificial Chinese text labeling system cannot realize multi-person collaborative labeling. The system of the invention comprises: the system comprises a server, a first client and a second client; the first client and the second client are respectively connected with the server; the server comprises a database; the first client comprises a management module; the second client comprises a labeling module, a repeated word segmentation module and a switching module; the management module is configured to split the marked text and upload the marked text to the database; the database is configured to associate the annotation item with the annotation user according to the allocation instruction; the marking module is configured to mark the statement in the marked item; the repeated word segmentation module is configured to perform repeated word segmentation on the sentence of the marked item according to the input instruction; the switching module is configured to switch the working states of the labeling and re-word-dividing module. The invention realizes multi-person cooperation labeling and improves the accuracy and efficiency of text labeling.)

在线人工中文文本标注系统

技术领域

本发明属于文本标注领域,具体涉及一种在线人工中文文本标注系统。

背景技术

随着人工智能和自然语言处理技术的迅速发展,人们越来越多的将其应用到教育、医疗、科研、商业等领域。基于机器学习的自然语言处理技术通常需要高质量的人工标注过的数据用于模型训练,但现阶段已标注的中文语料库非常少,而且大部分语料库的数据规模与质量根本满足不了高质量的业务模型的需求。我们常常需要人工制作标注过的中文语料库。

传统人工标注语句的工具常为文本编辑器,例如Notepad++、Visual StudioCode、Notepad等工具,这些编辑器设计的初衷主要是为了文本保存、编辑,及代码浏览、添加、修改等,用这些编辑器做标注常常非常耗时且容易出错。例如在中文实体标注中,常常需要定位当前所要标注的句子并且找到需要标注的词语,在这过程中标注人员很有可能会漏掉部分需要标注的词语或者句子。另外,标注人员在标注过程中常常需要对正在标注的内容进行切换,一般是通过拖动文本浏览器的滚动条或者打开文件完成,此过程消耗时间较多并且容易造成标注人员的疲劳。

现在一些单机版的标注软件相对于文本编辑器,提高了标注的效率与准确度,并可以实现一些项目管理的功能。但只适合于小团队:即1到2位标注人员协作完成,对于需要十几人甚至更多的标注人员的团队协作并不能胜任。例如,在标注过程中,需要共同标注一条语句,由于单机版的标注程序不能联网,实现此功能需要把两人标注的文本拷贝到同一电脑上比对,或者在标注的过程中若发现分词错误,无法直接进行修改。因此,本发明提出了在线人工中文文本标注系统。

发明内容

为了解决现有技术中的上述问题,即为了解决现有人工中文文本标注系统无法实现多人共同协作标注的问题,本发明第一方面,提出了一种在线人工中文文本标注系统,该标注系统包括服务器、一个或多个第一客户端以及一个或多个第二客户端;所述第一客户端、所述第二客户端分别与所述服务器相连,所述服务器包括数据库;所述第一客户端包括管理模块;所述第二客户端包括标注模块、重分词模块、切换模块;

所述管理模块,配置为获取待标注文本,并依据输入的拆分指令将所述待标注文本拆分为多个待标注项目;将由多个标注项目构成的待标注文本上传至所述数据库;所述待标注项目包括一条或多条分词后的语句;

所述数据库,配置为存储由多个标注项目构成的待标注文本;依据所述第一客户端和/或所述第二客户端输入的任务分配指令将标注项目与标注用户关联;

所述标注模块,配置为从所述数据库获取相应标注用户对应的标注项目,依据输入的标注指令对标注项目中的语句进行标注;将标注后的标注项目发送至所述数据库;

所述重分词模块,配置为依据输入指令对标注项目的语句进行重新分词,获取由新的组合词序列的语句;

所述切换模块,配置为对所获取的待标注项目进行标注模块工作状态、重分词模块工作状态的切换。

在一些优选的实施方式中,所述标注模块中“依据输入的标注指令对标注项目中的语句进行标注”,其方法为:依据输入的标注指令,得到所述语句中各词语对应的标注标签;所述语句为已分词的语句,其包括一个或多个词语。

在一些优选的实施方式中,所述输入的标注指令为基于JavaScript的键盘响应功能设置的标注标签对应的键盘输入指令。

在一些优选的实施方式中,所述标注模块还配置为各第二客户端通过预设的切换指令对其对应的标注项目中的语句或者语句中的词语进行切换。

在一些优选的实施方式中,所述标注模块还配置为获取所有的标注标签并进行显示。

在一些优选的实施方式中,所述重分词模块中“依据输入指令对标注项目的语句进行重新分词,获取由新的组合词序列的语句”其方法为:通过输入指令重新选取标注项目的语句中两个汉字之间的复选框,并根据选取结果重新组合词序列,得到重新分词后的语句。

在一些优选的实施方式中,所述数据库为关系型数据库,其存储的数据包括:用户信息、标注语句信息、用户标注信息、项目信息。

在一些优选的实施方式中,所述用户信息包括用户id、用户名、密码、用户类型;所述标注语句信息包括语句id、语句文本、分词标识、初始标注、项目id;所述用户标注信息包括用户id、语句id、分词标识、用户标注;所述项目信息包括项目id、对此项目有访问权限的用户id。

在一些优选的实施方式中,还配置为根据所述第一客户端的输入指令生成数据库语句进行添加标注用户、删除标注用户、查询标注用户对应标注项目的进度、删除标注项目以及修改标注项目的访问权限。

在一些优选的实施方式中,所述第一客户端、第二客户端各模块对应的页面为HTML网页,若所述HTML网页与所述服务器进行交互,则通过Ajax请求访问所述服务器并返回请求处理结果;否则通过jQuery框架处理HTML网页内的动态交互。

在一些优选的实施方式中,在所述标注模块中,当所述第二客户端访问其对应的标注项目时,所述服务器将所述数据库中该标注项目中所有的语句缓存至该客户端的内存。

在一些优选的实施方式中,若所述服务器的数据库中同一语句的标注结果和/或分词结果有多个,则根据所述标注用户的优先级对所述语句的标注结果和/或分词结果进行校准。

本发明的有益效果:

本发明实现了多人协作标注,并提高了文本标注的准确率和效率。本发明通过在线人工中文文本标注系统,对同一语句采用多用户独立进行标注和分词,并在线校准差异,实现了多人协作标注。本发明在标注模块,提供了通过预设的标注指令快速获取标注项目的语句中各词语的标注标签,并根据切换指令实现标注项目中的语句或语句中的词语快速切换、获取所有标注标签及其对应的设定的标注指令显示在当前标注页面上等功能,节省了标注时间与标注人员的精力,提高了标注的效率。在重分词模块,通过选取复选框的方式,重新组合词序列,可以实现分词修改,修改分词后重新进行标注,提高了文本标注的准确率。同时本发明加入了管理模块,方便在线实时对标注项目和标注用户的统一管理。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的在线人工中文文本标注系统的客户端的功能架构的示例图;

图2是本发明一种实施例的在线人工中文文本标注系统的系统架构的示例图;

图3是本发明一种实施例的标注用户界面的示例图;

图4是本发明一种实施例的管理员用户界面的示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

本发明的在线人工中文文本标注系统,如图1和图2所示,该标注系统包括服务器、一个或多个第一客户端以及一个或多个第二客户端;所述第一客户端、所述第二客户端分别与所述服务器相连,所述服务器包括数据库;所述第一客户端包括管理模块;所述第二客户端包括标注模块、重分词模块、切换模块;

所述管理模块,配置为获取待标注文本,并依据输入的拆分指令将所述待标注文本拆分为多个待标注项目;将由多个标注项目构成的待标注文本上传至所述数据库;所述待标注项目包括一条或多条分词后的语句;

所述数据库,配置为存储由多个标注项目构成的待标注文本;依据所述第一客户端和/或所述第二客户端输入的任务分配指令将标注项目与标注用户关联;

所述标注模块,配置为从所述数据库获取相应标注用户对应的标注项目,依据输入的标注指令对标注项目中的语句进行标注;将标注后的标注项目发送至所述数据库;

所述重分词模块,配置为依据输入指令对标注项目的语句进行重新分词,获取由新的组合词序列的语句;

所述切换模块,配置为对所获取的待标注项目进行标注模块工作状态、重分词模块工作状态的切换。

为了更清晰地对本发明在线人工中文文本标注系统进行说明,下面结合附图对本发明方法一种实施例中各模块进行展开详述。

本发明一种实施例的在线人工中文文本标注系统,该标注系统包括服务器、一个或多个第一客户端以及一个或多个第二客户端;所述第一客户端、所述第二客户端分别与所述服务器相连,所述服务器包括数据库;所述第一客户端包括管理模块;所述第二客户端包括标注模块、重分词模块、切换模块。各模块如图1所示,详细描述如下:

1、标注模块

在实体标注中,标注标签优选的由一个或多个英文字母或汉字组成,也可以选择其他符号进行表示。而现有的标注软件在获取标注标签需要标注用户完整地输入。在本实施例中,预先基于JavaScript的键盘响应功能设置标注标签对应的键盘输入指令,即标注指令,通俗的称为键盘快捷键,在标注过程中通过调用标注指令一键获取标注项目的语句中的词语的标注标签。其中,键盘快捷键在本实施例中优选为数字键,也可以选择键盘上的其他按键作为快捷键。其中,标注用户为第二客户端编码或者通过第二客户端进行用户登录的用户身份编码。即对标注项目标注的人员。在本系统中,人员分为标注用户和管理员用户,第一客户端即管理员用户进行编码的客户端,第二客户端即标注用户进行编码的客户端。

此外,为了提高标注用户的标注效率,实现标注项目中的语句或者语句中的词语的快速切换,本实施例中,标注模块还配置了切换指令,优选通过切换指令可以实现标注项目中的语句或者语句中的词语自动跳转,但也可以通过键盘左右键进行语句中的词语的切换。不需要通过鼠标点击指令切换待处理的语句或者词语,节省了标注时间。

在跳转到某个词语进行标注时,传统的标注方法的标注效率是根据标注用户对标注标签的熟悉程度。但在实体标注中,标注词语对应的标注标签常常有十几个甚至几十个,在对标注标签不熟悉的情况下,需要进行反复的查找,这样极大的降低了标注用户的效率。为了解决这一问题,我们在标注模块添加了一个标注标签展示,即获取所有预设的标注标签及其对应的标注指令并进行显示在当前标注的客户端页面上,便于用户随时查看标注标签的内容、简介以及对应的标注指令。

同时,由于本发明为户客户端提供的是一种可通过浏览器访问的交互页面,用户可以通过此页面访问位于远端服务器上的内容,并且可以根据用户的屏幕大小修改页面元素布局,这样使得不同浏览器大小的用户都可以完整的查看页面所有的元素。用户在标注过程中常会碰到网速较慢的情况,尤其是跨省、甚至跨国协作时,页面频繁地与服务器交互会极大的降低体验,延长等待时间,并给服务器造成压力。本发明通过前后端分离架构与预加载技术确保了与服务器交互的次数,既提高了用户体验,又降低了服务器的负担。具体处理步骤如下:

首先,将第一、第二客户端的页面编写为纯HTML的静态网面,HTML网页内与服务器无关的动态功能主要由jQuery实现。涉及到与服务器交互的功能时,HTML网页通过Ajax技术在不需要页面刷新的前提下向服务器请求数据并处理返回结果。

其次,将标注文本分割成多个标注项目,每个项目中包含一条或多条分词后的语句,在用户访问某个标注项目时,该项目内所有的语句都将被加载到用户缓存中,从而保证在用户一个项目内浏览或者切换语句时无需与服务器交互。同时,本系统也支持用户查看每个项目内的标注进度。

2、分词模块

在本实施例中,分词模块配置为通过输入指令重新选取标注项目的语句中两个汉字之间的复选框,并根据选取结果重新组合词序列,得到重新分词后的语句。

分词模块主要是用来进行分词修改。现有的分词手段并不能百分之百正确地将中文语句分成一个个词汇,尤其是一些专业性较强的文本,例如:医学、法律、工程等专业书籍。因此,本发明中在标注的基础上添加了分词修改功能,当标注用户在标注的过程中发现标注项目中的语句的分词出现错误,可以通过切换模块从标注模块切换到分词模块,进入修改模式,通过鼠标的点击指令选取两个汉字之间的复选框,基于选取结果重新组合词序列,即在两个汉字之间添加或删除分割,两个已选择的复选框之间即为分好的词汇,标注用户完成分词后进行保存,系统会进行更新,新分词的语句会覆盖旧语句。

如果第一客户端为标注用户A和标注用户B添加某一标注项目中的语句的访问权限,标注用户A与B分别访问语句进行标注工作,标注过程A与B中发现标注文本中的默认中文分词不准确,所以他们在系统中重新对语句进行分词,并完成标注。标注完的内容被A与B保存回服务器中。第一客户端根据预设的标注用户的优先级对所述标注结果和/或分词结果进行校准,以此进行质量控制。即优先级高的标注用户的标注结果和/或分词结果修改级别低的标注用户的标注结果和/或分词结果。

3、切换模块

切换模块,配置为对所获取的待标注项目进行标注模块工作状态、重分词模块工作状态的切换。主要是标注用户发现标注项目中的语句分词结果错误,想要重新进行分词时,可以通过切换模块,实现标注模块的工作状态和重分词模块工作状态的相互切换。

4、管理模块

管理模块,配置为获取待标注文本,并依据输入的拆分指令将所述待标注文本拆分为多个待标注项目;将由多个标注项目构成的待标注文本上传至所述数据库;所述待标注项目包括一条或多条分词后的语句;上述配置即为添加标注项目。还配置为根据所述第一客户端的输入指令生成数据库语句进行添加标注用户、删除标注用户、查询标注用户对应标注项目的进度、删除标注项目以及修改标注项目的访问权限。也可以将管理模块分为项目管理和用户管理。

其中,项目管理包括添加标注项目、删除标注项目、修改标注项目与标注用户的对应关系、查询标注项目的进度以及修改标注项目的访问权限;所述标注项目包括多条标注文本;

用户管理模块包括添加标注用户、删除标注用户、查询标注用户对应标注项目的进度。

在本实施例中,为了更清楚的对客户端功能的了解,本实施例给出了标注用户和管理员用户在标注系统中的界面示例图。

图3为标注用户的界面示例图,左边为管理模块,用户可以修改用户信息以及切换标注项目,中间为标注与分词模块,用户在此模块中完成语句的标注,下方为控制模块,用户可以在控制模块中迅速切换标注项目中的语句。其中,标注员即标注用户。右侧为标注信息展示模块,即获取所有预设的标注标签及其对应的标注指令并进行显示。其中分词模式为切换模块。

图4为管理员用户的界面示例图,左边为项目选择与用户管理模块,用户可以在此页面选择需要查看的项目,并且管理员可以添加新的标注用户。上方与中间为项目进度模块,管理员用户可以在此模块查看每个项目所分配的标注用户以及每个标注用户对项目的完成情况,并可以浏览用户标注成功的文本。下方为项目控制模块,管理员可以下载、添加、删除、修改项目,也可以调整用户对项目的访问权限。

在本发明中,服务器实现响应客户端的用户请求并与数据库进行交互。服务器主要分为以下几个部分:

数据持久层,封装所有与数据库交互的任务并包含与数据库连接的参数;

服务层,主要包括处理数据的业务逻辑与算法,将控制器发来的请求进行进一步的解析,并调用数据持久层与数据库交互;

控制器,响应用户请求,调用服务层处理请求,并将处理好的数据返回给用户客户端。

本发明中,数据库配置为存储由多个标注项目构成的待标注文本;依据所述第一客户端和/或所述第二客户端输入的任务分配指令将标注项目与标注用户关联。其为关系型数据库,其存储的数据包括:用户信息、标注语句信息、用户标注信息、项目信息。

用户信息包括用户id、用户名、密码、用户类型;标注语句信息包括语句id、语句文本、分词标识、初始标注、项目id;用户标注信息包括用户id、语句id、分词标识、用户标注;项目信息包括项目id、对此项目有访问权限的用户id。

所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。

需要说明的是,上述实施例提供的在线人工中文文本标注系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:意图驱动的适应竞争及合作意向的内容填充系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!