信息处理系统、信息处理法及非暂态电脑可读取记录媒体

文档序号:661719 发布日期:2021-04-27 浏览:3次 >En<

阅读说明:本技术 信息处理系统、信息处理法及非暂态电脑可读取记录媒体 (Information processing system, information processing method, and non-transitory computer-readable recording medium ) 是由 曾俋颖 汤珮茹 于 2019-10-08 设计创作,主要内容包括:一种信息处理系统、信息处理法及非暂态电脑可读取记录媒体。该信息处理系统包含至少一处理器、通信接口及数据库。通信接口耦接于至少一处理器。数据库连接于该一或多个处理器,以及数据库经组配以存储接收自通信接口至少一文本。至少一处理器经组配以:使用至少一文本的多个字词的基础特征信息来获得多个训练字词;分类该些训练字词以建立对应于第一类别的第一列表以及对应于第二类别的第二列表;使用在第一列表与第二列表中的多个关键词于待标注文本中进行匹配,并分别计算出待标注文本关于第一列表及第二列表的信心值;以及根据信心值以将待标注文本标注为第一类别或第二类别。(An information processing system, an information processing method and a non-transitory computer readable recording medium are provided. The information processing system comprises at least one processor, a communication interface and a database. The communication interface is coupled to the at least one processor. A database is coupled to the one or more processors and configured to store at least one text received from the communication interface. At least one processor configured to: obtaining a plurality of training words by using basic characteristic information of a plurality of words of at least one text; classifying the training words to establish a first list corresponding to a first category and a second list corresponding to a second category; matching the plurality of keywords in the first list and the second list in the text to be labeled, and respectively calculating the confidence values of the text to be labeled on the first list and the second list; and marking the text to be marked as a first category or a second category according to the confidence value.)

信息处理系统、信息处理法及非暂态电脑可读取记录媒体

技术领域

本公开涉及一种处理系统及处理方法,且特别涉及一种信息处理系统及信息处理方法。

背景技术

传统的文本标注方法是通过人力(例如分析师)阅读文章后,以分析师的经验来逐一对文章进行标注。然而,这样的方式相当耗费时间,并且,标注的结果也高度依赖于分析师的经验。此外,由于文章需要由分析师来阅读,在数据保密方面存在相当高的风险。

另一方面,机器学习方法来训练分类模型的机制需要大量且精确的标注文章,才能够确保分类模型的准确率。如果标注文章数量不足或品质不佳,亦会造成准确率低落。据此,如何同时提高分类准确度及数据保密性,于文本分类的领域而言是亟需解决的技术问题。

发明内容

发明内容旨在提供本公开内容的简化摘要,以使阅读者对本公开内容具备基本的理解。此发明内容并非本公开内容的完整概述,且其用意并非在指出本公开实施例的重要/关键元件或界定本公开的范围。

根据本公开的一实施例,公开一种信息处理系统,包含至少一处理器、通信接口及数据库。通信接口耦接于至少一处理器。数据库连接于该一或多个处理器,以及数据库经组配以存储接收自通信接口至少一文本。至少一处理器经组配以:使用至少一文本的多个字词的基础特征信息来获得多个训练字词;分类该些训练字词以建立对应于第一类别的第一列表以及对应于第二类别的第二列表;使用在第一列表与第二列表中的多个关键词于待标注文本中进行匹配,并分别计算出待标注文本关于第一列表及第二列表的信心值;以及根据信心值以将待标注文本标注为第一类别或第二类别。

根据另一实施例,公开一种信息处理方法,包含:使用至少一文本的多个字词的一基础特征信息来获得多个训练字词;分类该些训练字词以建立对应于一第一类别的一第一列表以及对应于一第二类别的一第二列表;使用在该第一列表与该第二列表中的多个关键词于一待标注文本中进行匹配,并分别计算出该待标注文本关于该第一列表及该第二列表的一信心值;以及根据该信心值以将该待标注文本标注为该第一类别或该第二类别。

根据另一实施例,公开一种非暂态电脑可读取记录媒体,存储多个程序码,当该些程序码被载入至少一处理器后,该至少一处理器执行该些程序码以执行下列步骤:使用至少一文本的多个字词的一基础特征信息来获得多个训练字词;分类该些训练字词以建立对应于一第一类别的一第一列表以及对应于一第二类别的一第二列表;使用在该第一列表与该第二列表中的多个关键词于一待标注文本中进行匹配,并分别计算出该待标注文本关于该第一列表及该第二列表的一信心值;以及根据该信心值以将该待标注文本标注为该第一类别或该第二类别。

附图说明

以下详细描述结合说明书附图阅读时,将有利于优选地理解本公开文件的实施方式。应注意,根据说明上实务的需求,附图中各特征并不一定按比例绘制。实际上,出于论述清晰的目的,可能任意增加或减小各特征的尺寸。

图1是示出根据本公开的一些实施例的信息处理系统的功能方框图。

图2是示出根据本公开的一些实施例的信息处理方法的流程图。

图3是示出根据本公开的另一些实施例的信息处理方法的流程图。

附图标记说明:

100 信息处理系统

110 处理器

120 通信接口

130 数据库

140 使用者接口(介面)

S210~S240、S310~S330 步骤

具体实施方式

以下公开内容提供许多不同实施例或实例,以便实施本公开的不同特征。下文描述元件及排列的特定实例以简化本公开。当然,该等实例仅为示例性且并不欲为限制性。举例而言,以下描述中在第二特征上方或第二特征上形成第一特征可包括以直接接触形成第一特征及第二特征的实施例,且亦可包括可在第一特征与第二特征之间形成额外特征使得第一特征及特征可不处于直接接触的实施例。另外,本公开可在各实例中重复元件符号及/或字母。此重复是出于简明性及清晰的目的,且本身并不指示所论述的各实施例及/或配置之间的关系。

参照图1,其是示出根据本公开的一些实施例的信息处理系统100的功能方框图。如图1所示,信息处理系统100包含处理器110、通信接口120以及数据库130。在一些实施例中,可由至少一处理器110来执行数据处理,使得信息处理系统100运行于多执行绪(multithreading)环境。为便于说明,本公开以下以处理器110进行实施例说明。

通信接口120耦接于处理器110,经组配以与另一设备或系统(未示出)传送/接收文本数据。于一些实施例中,通信接口120可以为,但不限于,支援全球移动通信(GlobalSystem for Mobile communication,GSM)、长期演进通信(Long Term Evolution,LTE)、全球互通微波存取(Worldwide interoperability for Microwave Access,WiMAX)、无线保真(Wireless Fidelity,Wi-Fi)、蓝牙技术及有线网络的通信芯片等。

数据库130耦接于处理器110。在一些实施例中,信息处理系统100可在系统外部设置外部数据库(未示出),而通过通信接口130与处理器110通信连接此外部数据库,以存取系统外部的数据。

在一些实施例中,数据库130经组配以通过通信接口120存储至少一文本。所述的文本可以为用以表示任何语言的文件。

参照图2,其是示出根据本公开的一些实施例的信息处理方法的流程图。图2的信息处理方法可由图1的信息处理系统100来执行。为便于说明图2的信息处理方法,各种相关的用语或元件将参照图1说明。

于步骤S210中,使用至少一文本的字词的基础特征信息来获得多个训练字词。

于一些实施例中,处理器110使用文本中的字词来作为训练字典的关键字的基础。

首先,处理器110通过自然语言处理技术来对文本中的字词进行剖析,例如找出文本中的词汇或断词。接着,处理器110根据一预设数据库(未示出)来取得此些字词的基础特征信息。基础特征信息可以为但不限于字词的相互信息(mutual information,MI)、熵值(entropy)、字词频率(term frequency,TF)、组合变化值(accessor variety,AV)以及上下文关系值(position)。于一些实施例中,处理器110使用综合权重计算公式,例如公式(1),来计算每一个字词的参考值。

W(new word)=α×WMI+β×Wentropy+γ×WTF+δ×WAV+ε×Wposition,0<α,β,γ,δ,ε<1…公式(1)

于公式(1)中,W(new word)为字词的参考值。WMI为字词的相互信息,Wentropy为字词的熵值,WTF为字词的字词频率,WAV为字词与左右字词之间的变化值,Wposition为字词于上下文之间的相对关系值,以及α、β、γ、δ及ε为机率值。其中,相互信息为字词与其他相邻字词之间的紧密程度或关联性的估测值,熵值为字词与其他相邻字词之间的自由程度的估测值。相互信息与熵值为信息理论(Information Theory)的一环,故于此不予详述。

因此,通过调整公式(1)的各基础特征信息的机率值,不同的机率值可以供后续找出多个关键词的参考。

于步骤S220中,处理器110分类此些训练字词以建立分别对应于多个类别的多个列表。

在一些实施例中,处理器110可设定不同的阈值来决定关键词的分类。举例而言,于文本中检测到训练字词为“人工智能服务器”、“智能机器人”、“虚拟助手”、“自然语言”、“家电”等等,然而只有前四者的参考值大于第一阈值,则训练字词会被设定为有关于人工智能(第一类别)的第一列表中的关键词。举另一例而言,于文本中检测到的训练字词为“金融交易”、“比特币”、“智能合约”、“银行”,并且此些训练字词只有前三者的参考值大于第二阈值,则训练字词“金融交易”、“比特币”、“智能合约”会被设定为有关于区块链(第二类别)的第二列表中的关键词。以此类推,处理器110可建立许多不同的列表。

于一些实施例中,第一列表的关键词经组配为关于人工智能的字典,第二列表的关键词经组配为关于区块链的字典。如此一来,信息处理系统100可以此些字典档为基础,对一些待分类的文本进行内容上的分类或标注。值得一提的是,本公开中的用语“列表”及“字典”可交换地使用。

于步骤S225中,处理器110判断是否完成字典的训练。

于一些实施例中,步骤S210至步骤S220可被视为一个环路,而本公开的建立列表的方法中,可以重复执行多次环路,对多个相同或不同的文本的字词为基础来重复地获得多个训练字词,使得被分类到各类别的列表中的关键字更正确。举例而言,在第L1个环路可能会把训练字词“银行”分类到区块链类别的第二列表,而作为第二列表的关键词。然而,可能在第L2个环路时,将比较不符合“区块链”的分类的训练字词“银行”从第二列表中剔除。如此一来,执行多个环路可以不断地更新与优化关键字的列表。

于一些实施例中,本公开的信息处理方法使用字词抽取演算法来减少训练字词的所需时间并提升训练字词的精确度。举例来说,字词抽取演算法为TextRank演算法,如公式(2)所示。

于公式(2)中,Vi、Vj、Vk为不同的节点,WS(Vi)为节点Vi的权重值,Wji为节点Vj到节点Vi的边值权重,In(Vi)为指向节点Vi的所有节点集合,Out(Vj)为节点Vj指向的所有节点集合,d为调节系数(例如0.85)。

在一些实施例中,于执行字词抽取演算法时,以(term frequency-inversedocument frequency,TF-IDF)技术中关于字词的出现频率及普遍程度信息,运用至公式(2)中的边值权重Wji,使得在计算各节点的权重值时,可以考虑到不同字词的出现频率及普遍程度的高低,使得于公式(2)中计算叠代的过程可以加速收敛。举例而言,处理器110使用公式(2)计算N个训练字词的权重值。对此些权重值排序之后(例如由大到小),前数个(例如50个)训练字词会被设定为关键词,即可被加入列表中。

于步骤S230中,处理器110使用此些列表的关键词,于待标注文本中进行匹配,以计算出此些列表的信心值。

于一些实施例中,本公开使用多字词多字典匹配(multiple string multipledictionary,MSMD)演算法来进行文本的标注。举例而言,于步骤S220获得多个列表作为多个字典D[1,…,d],每一个字典(例如字典1~字典d)为互斥类别。每一字典包含多个字词S[1,…,s]。于匹配程序中,处理器110会从待标注文本中取一段主字串T,以逐一判断各字典是否为T的匹配类别,例如搜索各字典中是否存在与主字串T完全匹配的关键词。

举例而言,处理器110将第一列表中的关键词设定为字典树(Trie-Tree)的多个第一节点值(或称第一模板字串),以及将第二列表中的关键词设定为字典树的多个第二节点值(或称第二模板字串)。换言之,将所有关键字整合到一个字典树。

接着,处理器110同时使用此些第一节点值与此些第二节点值来比对待标注文本的多个字词。在进行匹配程序时,每一次以待标注文本的主字串T,自动搜索字典树的此些第一模板字串。主字串T的每一个字将逐一地与第一模板字串被比对。于一实施例中,当主字串T与第一模板字串中的任一个完全匹配时,则处理器110记录此模板字串、待标注文本中出现此匹配的模板字串的次数,以及此匹配的模板字串出现在待标注文本中的位置。相似地,主字串T的每一个字将逐一地与第二模板字串被比对。当主字串T与第二模板字串中的任一个完全匹配时,则处理器110记录此模板字串、待标注文本中出现此匹配的模板字串的次数,以及此匹配的模板字串出现在待标注文本中的位置。

于一些实施例中,字典树的数据结构以字串的相同前缀来存储于节点中(例如每一个字元存储于一个节点,使得字典树的树高为最长字串长度加一),因此每一个字串会对应于唯一的节点。于根据主字串T来搜索字典树时,会从字典树的根节点进行搜索,并逐层往子节点寻找。另一方面,由于字典树中使用指标(pointer)来记录字串,处理器110使用有限状态机控制(例如Aho-Corasick演算法),配合各预先建构好的模板于搜索字典树的过程中修改指标,于搜索主字串T中任一字元失败时,于有限状态机中进行退回状态,转向字典树的其他分支以避免重复匹配相同的字首,因此可以减少搜索主字串T的时间,提高搜索字典树的效率。

值得一提的是,本公开不限于以字典树演算法,任何的多字串搜索演算法均属于本公开的实施范畴中。

此外,本公开是将所有字典的所有关键词依据相同前缀的规则来建立字典树。由于一个字典树中包含所有字典的所有关键词,于匹配程序中,可以使一个主字串T同时对所有的字典来进行关键字匹配。相较于一般的作法(即一次只能对一个字典进行关键字匹配),本公开同时多字典匹配的作法可大幅地提升关键字匹配的效率。

下文以两个字典(列表)整合到一个字典树为例,字典树中对应于第一列表的多个关键词为多个第一节点,以及字典树中对应于第二列表的多个关键词为多个第二节点。

于一些实施例中,处理器110记录待标注文本的字词当中与第一节点值匹配的字词数目(即第一匹配数),以及记录待标注文本的字词当中与第二节点值匹配的字词数目(即第二匹配数)。接着,处理器110将第一匹配数设定为第一列表的信心值,以及将第二匹配数设定为第二列表的信心值。

于步骤S240中,处理器110根据信心值来标注此标注文本为此些类别的至少其中一者。

于一些实施例中,处理器110于第一列表的信心值与第二列表的信心值当中取最大者。举例而言,若第一列表的信心值为最大值,则将此待标注文本标注为第一列表对应的类别(例如人工智能)。举另一例而言,若第二列表的信心值为最大值,则将此待标注文本标注为第二列表对应的类别(例如区块链)。于另一实施例中,亦可以一个以上的类别对待标注文本进行标注。

参照图3,其是示出根据本公开的另一些实施例的信息处理方法的流程图。本公开的信息处理方法还可以对现有的列表作更进一步的更新,让各分类的关键字更精确。

于步骤S310中,处理器110使用新文本中的多个字词的基础特征信息来获得多个第一关键词、第二关键词及第三关键词中的至少一者。获得关键词的步骤参考前述步骤S210至S220的内容,于此不予重述。

于一些实施例中,处理器110可以通过通信接口120接收新文本。新文本可以为任何可用于训练所有列表的文本,例如已经存储于数据库130中的文本、前述的待标注文本、尚未被利用于训练程序的文本等。

于一些实施例中,若于新文本中计算出可被分类为现有的类别中的关键词时,则执行步骤S320。

于步骤S320中,处理器110根据此些第一关键词更新对应于第一类别的第一列表及/或根据此些第二关键词更新对应于第二类别的第二列表。

于另一实施例中,若于待标注文本中计算出无法被分类为现有的类别中的关键词(例如第三关键词)时,则执行步骤S330。

于步骤S330中,处理器110根据此些第三关键词建立对应于第三类别的第三列表。

举例而言,于文本中检测到关键词为“平板电脑”、“显示器”、“光学薄膜”、“玻璃屏幕”等,此些关键词既不属于人工智能(第一类别),也不属于区块链(第二类别)。因此,处理器110建立对应于电子信息(第三类别)的第三列表。

复参照图1,信息处理系统100还包含使用者接口140。使用者接口140耦接于处理器110。使用者接口140可以为图形使用者接口、键盘、屏幕、鼠标等,以提供使用者进行相关的操作。举例而言,图形使用者接口提供以建立好的多个列表及其关键字。

参照表一,表一为多个列表及其关键字的示意图。

表一:多个列表(下称字典文件)

于一些实施例中,本公开的多个列表可以对不同的标注需求提供对应的服务。举例而言,若待标注文本为YAHOO新闻的多个文本,文本标注系统100可以使用例如表一的字典文件来对所有的YAHOO新闻进行文本标注,此些内容请参照前述说明。例如,第一篇新闻被标注为与“区块链”及“大数据”有关的文章,而第二篇文章被标注为与“半导体”有关的文章。

于另一些实施例中,若待标注文本为东森新闻的多个文本,则使用者接口140可经组配以接收操作指令,以供处理器110执行类别的修改。举例而言,人工智能(第一类别)可被修改为智能家电(第四类别),使得智能家电包含人工智能的所有关键字。以此类推,区块链(第二类别)可被修改为电子商务(第五类别),使得电子商务包含区块链的所有关键字。

另一些实施例中,使用者接口140提供使用者(例如各领域专家)来评估字典文件的各列表及其关键字是否正确,以及评估分类后的文本是否也被正确地标注。若发现有不适合的部分,各领域专家也可通过使用者接口140来修正有错误的部分,以避免重复标注或标准不一致的情况。

如此一来,本公开的信息处理系统100于完成一个阶段的训练,而建立字典文件之后,可相容于不同标注需求的文本提供者。因此,在提供标注服务给不同的文本提供者时,不需要针对每个文本提供者重新进行字典文件的训练(或许只需进行微调),即可让现有的字典文件应用于不同的文本提供者。换言之,通过抽换字典的分类与输入的文本,可快速地在不同的领域及数据来源进行转换,提升工作效率。

在一些实施例中,基于表一的字典文件中的五个分类标签来对多间(例如195间)公司网站的文本进行标注。预先设计部分(例如15间)公司网站的文本已被分类于部分标签,因此对剩余的部分(例如80间)公司网站进行前述的文本标注步骤。举例来说,对此15间以标注好的网站文本进行训练步骤(例如前述步骤S210至步骤S225),得到字典文件(例如表一)。接着,利用标注步骤(例如前述步骤S230至步骤S240),对80间公司的网站文本进行关键字标注,可得到第一精确度的标注结果。

另一方面,可使用80间公司的网站文本进行优化步骤(例如步骤S310至步骤S330),再次训练字典文件的分类及其关键字,以得到优化后的字典文件。接着,对剩余的部分(例如100间)公司网站,再次进行前述的文本标注步骤(例如前述步骤S230至步骤S240),此时,可得到第二精确度的标注结果,其中第二精确度高于第一精确度。以此类推,本公开可不断地优化,使得每一次的文本标注都可以优化字典文件,提升下一次文本标注的精确度。

综上所述,本公开公开的信息处理系统及信息处理方法提供高度弹性的文本标注方法,使用基础特征信息来发现新字词,并将词频逆向文件频率结合于字词抽取演算法来提升设定关键词的效率。相对于一般文本标注需要人力来完成,本公开可不断地训练及精进字典的分类。此外,本公开的自动化标注的方式可以同时实现线上数据标注及数据保护,避免因人工标注而导致数据泄漏的问题。

上文概述若干实施例的特征,使得熟习此项技术者可更好地理解本公开的实施方式。熟习此项技术者应了解,可轻易使用本公开作为设计或修改其他工艺及结构的基础,以便实施本文所介绍的实施例的相同目的及/或实现相同优势。熟习此项技术者亦应认识到,此类等效结构并未脱离本公开的精神及范畴,且可在不脱离本公开的精神及范畴的情况下产生本文的各种变化、替代及更改。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于情感词典实体的情感得分的分析处理方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!