基于自然语言处理的非结构化交易信息识别方法及系统

文档序号：1938138 发布日期：2021-12-07 浏览：15次 >En<

阅读说明：本技术 基于自然语言处理的非结构化交易信息识别方法及系统 (Unstructured transaction information identification method and system based on natural language processing ) 是由牛志遥杨骏逸于 2021-09-08 设计创作，主要内容包括：本发明公开了基于自然语言处理的非结构化交易信息识别方法及系统,该方法包括：获取用户发送的交易报价信息对应的交易语言文本,并对交易语言文本进行预处理；对交易语言文本进行交易语境分词以及词性辨识；对交易语言文本进行意群切分及段落补全处理；对交易语境分词结果和词性辨识结果提取词性特征,并通过贝叶斯网络对词性特征进行向量化建模,以对交易语言文本进行全局最优识别；对全局最优识别结果进行矩阵格式校验,并基于校验结果对意群切分及段落补全处理结果进行矩阵结构化处理。本发明对交易报价信息进行词性处理、段落处理等,将各类交易“行话”解析成具体的报价及成交信息,从而提高对于交易报价信息的处理效率。(The invention discloses an unstructured transaction information identification method and system based on natural language processing, wherein the method comprises the following steps: acquiring a transaction language text corresponding to transaction quotation information sent by a user, and preprocessing the transaction language text; performing transaction context word segmentation and part-of-speech identification on the transaction language text; performing sense group segmentation and paragraph completion processing on the transaction language text; extracting part-of-speech characteristics from the transaction context word segmentation result and the part-of-speech recognition result, and performing vectorization modeling on the part-of-speech characteristics through a Bayesian network to perform global optimal recognition on the transaction language text; and carrying out matrix format check on the global optimal recognition result, and carrying out matrix structuralization processing on the result of meaning group segmentation and paragraph completion processing based on the check result. The invention carries out part-of-speech processing, paragraph processing and the like on the transaction quotation information, and analyzes various transaction 'jargon' into specific quotation and transaction information, thereby improving the processing efficiency of the transaction quotation information.)

技术领域

本发明涉及计算机信息处理技术领域，特别涉及基于自然语言处理的非结构化交易信息识别及系统。

背景技术

当前，固定收益产品及非标准化证券的交易撮合由各个市场参与主体自行商议交易。随着银行间交易市场的繁荣，大量的交易需要人工收集市场行情，询价报价，磋商成交，消耗大量的人力沟通成本。目前市场还处于人工化程度较高、自动化是较低的状态，因此如何实现智能化识别市场报价等信息，是本领域技术人员需要解决的问题。

发明内容

本发明实施例提供了一种基于自然语言处理的非结构化交易信息识别方法及系统，旨在提高对于交易报价信息的处理效率。

第一方面，本发明实施例提供了一种基于自然语言处理的非结构化交易信息识别方法，包括：

获取用户发送的交易报价信息对应的交易语言文本，并对所述交易语言文本进行预处理；

基于条件随机场，对预处理后的交易语言文本进行交易语境分词以及词性辨识；

根据交易语境分词结果和词性辨识结果，对所述交易语言文本进行意群切分及段落补全处理；

对所述交易语境分词结果和词性辨识结果提取词性特征，并通过贝叶斯网络对所述词性特征进行向量化建模，以对所述交易语言文本进行全局最优识别；

对所述全局最优识别结果进行矩阵格式校验，并基于校验结果对意群切分及段落补全处理结果进行矩阵结构化处理，将矩阵结构化处理结果作为交易报价信息识别结果输出。

第二方面，本发明实施例提供了一种基于自然语言处理的非结构化交易信息识别装置，包括：

预处理单元，用于获取用户发送的交易报价信息对应的交易语言文本，并对所述交易语言文本进行预处理；

词性处理单元，用于基于条件随机场，对预处理后的交易语言文本进行交易语境分词以及词性辨识；

段落处理单元，用于根据交易语境分词结果和词性辨识结果，对所述交易语言文本进行意群切分及段落补全处理；

最优识别单元，用于对所述交易语境分词结果和词性辨识结果提取词性特征，并通过贝叶斯网络对所述词性特征进行向量化建模，以对所述交易语言文本进行全局最优识别；

第一结构化处理单元，用于对所述全局最优识别结果进行矩阵格式校验，并基于校验结果对意群切分及段落补全处理结果进行矩阵结构化处理，将矩阵结构化处理结果作为交易报价信息识别结果输出。

第三方面，本发明实施例提供了一种分布式计算机单点及集群化部署装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于自然语言处理的非结构化交易信息识别方法，并支持单机计算、多机并行计算，实现如第一方面所述的基于自然语言处理的非结构化交易信息识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的基于自然语言处理的非结构化交易信息识别方法。

本发明实施例提供了一种基于自然语言处理的非结构化交易信息识别方法及系统，该方法包括：获取用户发送的交易报价信息对应的交易语言文本，并对所述交易语言文本进行预处理；基于条件随机场，对预处理后的交易语言文本进行交易语境分词以及词性辨识；根据交易语境分词结果和词性辨识结果，对所述交易语言文本进行意群切分及段落补全处理；对所述交易语境分词结果和词性辨识结果提取词性特征，并通过贝叶斯网络对所述词性特征进行向量化建模，以对所述交易语言文本进行全局最优识别；对所述全局最优识别结果进行矩阵格式校验，并基于校验结果对意群切分及段落补全处理结果进行矩阵结构化处理，将矩阵结构化处理结果作为交易报价信息识别结果输出。本发明实施例通过对用户的交易报价信息进行词性处理、段落处理等，将各类交易“行话”解析成具体的报价及成交信息，从而提高对于交易报价信息的处理效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别方法的流程示意图；

图2为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别方法中步骤S101的子流程示意图；

图3为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别方法中步骤S102的子流程示意图；

图4为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别方法中步骤S103的子流程示意图；

图5为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别方法中步骤S104的子流程示意图；

图6为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别方法中步骤S105的子流程示意图；

图7为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别装置的示意性框图；

图8为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别装置中预处理单元的子示意性框图；

图9为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别装置中词性处理单元的子示意性框图；

图10为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别装置中段落处理单元的子示意性框图；

图11为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别装置中争议修正单元的子示意性框图；

图12为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别装置中第一结构化处理单元的子示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面请参见图1，图1为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别方法的流程示意图，具体包括：步骤S101～S105。

S101、获取用户发送的交易报价信息对应的交易语言文本，并对所述交易语言文本进行预处理；

S102、基于条件随机场，对预处理后的交易语言文本进行交易语境分词以及词性辨识；

S103、根据交易语境分词结果和词性辨识结果，对所述交易语言文本进行意群切分及段落补全处理；

S104、对所述交易语境分词结果和词性辨识结果提取词性特征，并通过贝叶斯网络对所述词性特征进行向量化建模，以对所述交易语言文本进行全局最优识别；

S105、对所述全局最优识别结果进行矩阵格式校验，并基于校验结果对意群切分及段落补全处理结果进行矩阵结构化处理，将矩阵结构化处理结果作为交易报价信息识别结果输出。

本实施例中，首先对用户发送的交易报价信息预处理为交易语言文本，达到意群感知及聚合的效果，当然，所述的交易报价信息还可以是指其他证券交易信息，例如询价信息等等。在条件随机场的基础上，对所述交易语言文本进行词性处理，即所述交易语境分词和词性辨识，例如判断交易语言文本中词性所属的交易语境是怎样的，以及对词性判定是动词或者名词，又或者是其他词性等等。随后对所述交易语言文本进行段落处理，即进行意群切分和段落补全处理，所谓意群即是指交易语言文本中的句子按照意思和结构划分出的各个成分，每一个成分即称为一个意群，并且同一意群中的词与词关系紧密，不能随意拆分，否则就会引起误解。接着，根据词性处理和段落处理的结果，对所述交易语言文本提取词性特征，并以此建立向量化模型，实现对于交易语言文本的全局最优识别。再根据全局最优识别结果对交易语言文本进行矩阵格式校验，校验得到的结果即可作为交易语言文本的识别处理结果输出。

本实施例通过对用户的交易报价信息进行词性处理、段落处理等，将各类交易“行话”解析成具体的报价及成交信息，从而提高对于交易报价信息的处理效率。本实施例可以对磋商交流产生的交易语言文本自动识别询价、报价、交易信息。并且可以对交易语言文本进行智能纠错，在具体应用场景中，本实施例对于交易语言文本的识别准确度达到99.94％。在另一具体应用场景中，本实施例对于每组行情从捕获到结构化输出的平均耗时在20ms量级。综上所述，本实施例可以大幅降低场外交易询价报价人力成本，提高交易报价信息的处理效率。另外，本实施例还支持多机分布式部署，并接入海量的聊天群组、好友用户，实现实时消息的处理，并能封装成消息流总线上的高性能流式计算单元。

在一实施例中，如图2所示，所述步骤S101包括：步骤S201～S204。

S201、通过预设交易动词表对所述交易语言文本进行意群粗感知，并根据意群粗感知结果清除所述交易语言文本中的非行情信息；

S202、利用索引消息队列技术，并将交易语言文本通过哈希算法构造索引队列，实现流式短时去重；

S203、根据交易语言文本的在索引队列中的排序进行上下文追溯，并根据所述交易语言文本的获取时间，通过标记行分隔符对所述交易语言文本进行聚合处理；

S204、结合决策树和文本标点属性及标点间的字符分布特征构造自适应断句分词算法，并利用所述自适应断句分词算法对所述交易语言文本预分词段。

本实施例中，首先对交易语言文本采集分析，即通过预设的交易动词表进行交易语言意群粗感知，以对交易语言文本中的行情信息进行判断。在这里，所述预设的交易动词表可以是基于正则表达式匹配的算法抽取得到的动词表，并由交易员人工复查与场景有意义的动词后形成的交易动词表。接着，对交易语言文本中的多来源数据进行去重，具体的，对将交易语言文本经hash处理后压入去重队列，hash重复则丢弃，去重队列中的消息超时一定限度后或者走到队列末尾，将会被压出队列。在对交易语言文本进行聚合处理时，将上一步中的去重消息按照发信人发信间隔长短进行聚合，聚合信息标记行分隔符。然后对交易语言文本采用自适应断句分词算法预分词段。所述自适应断句分隔算法具体为：构造决策树(例如C4.5决策树，一种决策树算法)，根据文本标点属性及标点间的字符分布特征，设置该标点的分隔级别，例如设置句号和回车符级别高于逗号和顿号的级别。

在一实施例中，如图3所示，所述步骤S102包括：步骤S301～S306。

S301、基于所述交易语言文本的交易语境构造交易行情关键要素对应的目标词性向量，并基于正则化表达对所述目标词性向量中的元素逐一构建词性判定专家规则，以此构建词性判定器；

S302、利用所述词性判定器对所述交易语言文本中的半结构化信息进行词性判定，并通过关键词匹配的表头识别器对词性判定结果进行矫正；

S303、将所述词性判定器嵌入至条件随机场模型中，并利用预先构造的连续字符游标对所述交易语言文本中的非结构化信息逐字符吃进，以进行词性判定；

S304、记录每一字符在所述连续字符游标的始末位置，并通过命中判定规则的贪婪度连接每一字符的始末位置，得到对应的局部条件代价距离；

S305、根据字符的字段字长构造对应的位置转移矩阵，利用所述局部条件代价距离依次替换所述位置转移矩阵中对应的始末位置的坐标距离值；

S306、基于所述坐标距离值，通过最短路径算法模型计算所述位置转移矩阵的最短路径，并将所述最短路径上的匹配词作为最优分词方案，以对所述交易语言文本进行交易语境分词以及词性辨识。

本实施例中，基于交易语境构造行情的目标词性向量(即行情关键要素类型)，以及基于正则表达规则对目标词性向量中的元素逐一构建词性判定专家规则，并统一封装为词性判定器。所述词性判定器支持对同一词性接入专家规则，并基于已有词性样本在不同规则上匹配通过的频率计入规则贪婪度t，通过率越高则越贪婪。

对于词段分隔较好的半结构化消息，可直接使用词性判定器判定，并通过基于关键词匹配的表头识别器矫正。对于非结构化的消息，例如段落、标点分隔不明确或者不规则时，则采用词粘连分离算法进行处理，也就是，构造连续字符游标Cursor，将所述词性判定器嵌入CRF条件随机场模型中，对待识别的词段逐字符吃进。每次移动时，对游标上文进行词性判定，记录判出词的起止位置(又或者是所述始末位置)，并将起止位置用命中判定规则的贪婪度t连接，形成局部条件代价距离d，越贪婪的匹配距离代价越高。同时假设待识别词段字长为n，构造(n+1)*(n+1)的位置转移矩阵，相邻位位置转移距离均为大数，然后将游标匹配过的局部条件代价距离d依次替换所述位置转移矩阵对应的起止位置坐标的距离值。当游标走完整个词段后，使用最短路径算法模型(如采用Dijkstra迪杰斯特拉算法)对所述位置转移矩阵计算最短路径，并将最短路径上的匹配词作为最优分词方案。在词段连续识别处理的过程中，对于满足行情词性向量的词段采用上述分词后持续记录，直到当前向量出现重复属性后断句。并且还可以实现大规模的实时消息处理，同时也保持一定的智能性。

在一实施例中，如图4所示，所述步骤S103包括：步骤S401～S403。

S401、根据交易语境分词结果和词性辨识结果，对所述目标词性向量进行上下文距离计算，并采用编辑距离类算法计算上下文差异度；

S402、采用累积损失方法，对所述上下文差异度进行判定，并根据判定结果对所述交易语言文本分离语段；

S403、对所述交易语言文本逐句进行词性对齐，并采用前值填充的方式补全每一句子中的缺失值。

本实施例中，基于前述步骤得到的交易语境分词结果和词性辨识结果，对构建的目标词性向量进行上下文距离计算，并采用编辑距离类算法(如采用LevenshteinDistance莱文斯顿距离算法)计算上下文差异度，同时采用累计损失的方法，对上下文差异度进行判定。即上下文差异度为零则遗忘累计损失，上下文差异度不为零则积累累计损失，根据上下文差异度的具体大小判断是否截断意群，以分离语段。对于已分离的语段，逐句进行词性对齐，并对语段中的缺失值采用前值填充的方式进行补全。

在一实施例中，所述步骤S104包括：

构造意群争议性词性识别器对所述词性辨识结果产生的群体性争议问题进行修正，并基于优先级规则对修正过程进行逐级分类处理。

本实施例中，由于在词性识别过程中往往存在群体性争议问题，因此需要构造意群争议性词性识别器，以对群体性争议问题进行修正。具体可以采用优先级规则集对群体性争议问题的分流争议性分类处理。在一具体实施例中，可以将群体性争议问题分为三类(或者三个级别)进行处理：表头特征识别、值特征识别和统计分布特征识别，如果所在当级无法有效解决争议问题，则可以流入下一级进行解决。

进一步的，在一实施例中，如图5所示，所述构造意群争议性词性识别器对所述词性辨识结果产生的群体性争议问题进行修正，并基于优先级规则对修正过程进行逐级分类处理，包括：步骤S501～S504。

S501、通过表头关键字符匹配对非结构化消息中的群体性争议问题进行表头特征识别；

S502、结合群体性争议问题的数值值域边界约束、文本枚举类型断言对群体性争议问题进行类别修正，以达到值特征识别；

S503、获取结构化信息中的群体性争议问题对应的文本类型和数值类型，并对所述文本类型和数值类型进行分布统计，以及根据分布统计结果对群体性争议问题标注词性标签；

S504、基于词性标签构建对应的争议特征矩阵，并利用有监督模型对所述争议特征矩阵进行训练，得到对应的词性分类结果，然后将所述词性分类结果作为全局最优识别结果。

本实施例中，通过表头关键字符匹配实现表头特征识别，表头特征识别通常为非结构化消息中的冗余信息中挖掘。在进行值特征识别时，通过对群体性争议问题钟的特定词性的数值值域边界约束、文本枚举类型断言实现类别修正。在进行分布特征识别时，对群体性争议问题的文本类型和数值类型进行分布统计，其中，文本类型统计字符频次、字段长度、数字占比等特征；数值类型统计中位值、方差、极差、变异系数增益等特征。在根据分布统计结果进行词性标签标注后，可以构建得到一争议特征矩阵，利用Bayes(朴素贝叶斯)和/或CART树等快速有监督模型对所述争议特征矩阵进行训练，并使用训练后的模型对群体性争议问题进行词性分类，并形成最终决策。

本实施例能够有效提升行情识别的精确度，在具体应用场景中，对行情识别的精确度可从95％左右提升到99.9％以上，使整体系统能够可靠投产。

在一实施例中，如图6所示，所述步骤S105包括：步骤S601～S604。

S601、根据意群切分及段落补全处理结果构造词性投影矩阵，并计算所述词性投影矩阵与预先设置的检验向量之间的内积，然后根据所述内积判断所述交易语言文本的行情基本要素是否齐备；

S602、通过公共属性聚合、非公共列数据对齐或者列重排序方法对所述词性投影矩阵进行矩阵结构化处理；

S603、对所述交易语言文本中的词性进行标准化转化，将词性对应的词值翻译并数值规约为符合生产规范的标准化数据结构；

S604、通过多个异步线程输出所述标准化数据结构。

本实施例中，矩阵格式校验主要是通过构造检验向量T，计算其与补全的意群段落所构成的词性投影矩阵的内积p，如果该内积p的值不为零则表示行情基本要素是否齐备，可以输出。输出格式规约主要通过公共属性聚合、非公共列数据对齐、列重排序等方式使意群矩阵结构化。另外，通过构建自动化词性翻译器，实现对各个词性的词值的标准化转化，以及通过上述识别过程中的标记和积累的专家翻译规则，将词值翻译并数值规约成符合生产规范的标准化数据结构。采用多个异步线程将翻译规约后的结果实时推送至消息队列，并通过写入数据库和/或写入归档文件等方式快速输出。

本实施例对交易语言文本进行自动化词性翻译与数值规约，实现行情与成交信息的结构化生成与实时推送。

图7为本发明实施例提供的一种基于自然语言处理的非结构化交易信息识别装置700的示意性框图，该装置700包括：

预处理单元701，用于获取用户发送的交易报价信息对应的交易语言文本，并对所述交易语言文本进行预处理；

词性处理单元702，用于基于条件随机场，对预处理后的交易语言文本进行交易语境分词以及词性辨识；

段落处理单元703，用于根据交易语境分词结果和词性辨识结果，对所述交易语言文本进行意群切分及段落补全处理；

最优识别单元704，用于对所述交易语境分词结果和词性辨识结果提取词性特征，并通过贝叶斯网络对所述词性特征进行向量化建模，以对所述交易语言文本进行全局最优识别；

第一结构化处理单元705，用于对所述全局最优识别结果进行矩阵格式校验，并基于校验结果对意群切分及段落补全处理结果进行矩阵结构化处理，将矩阵结构化处理结果作为交易报价信息识别结果输出。

在一实施例中，如图8所示，所述预处理单元701包括：

感知单元801，用于通过预设交易动词表对所述交易语言文本进行意群粗感知，并根据意群粗感知结果清除所述交易语言文本中的非行情信息；

去重单元802，用于利用索引消息队列技术，并将交易语言文本通过哈希算法构造索引队列，实现流式短时去重；

聚合单元803，用于根据交易语言文本的在索引队列中的排序进行上下文追溯，并根据所述交易语言文本的获取时间，通过标记行分隔符对所述交易语言文本进行聚合处理；

预分单元804，用于结合决策树和文本标点属性及标点间的字符分布特征构造自适应断句分词算法，并利用所述自适应断句分词算法对所述交易语言文本预分词段。

在一实施例中，如图9所示，词性处理单元702包括：

构建单元901，用于基于所述交易语言文本的交易语境构造交易行情关键要素对应的目标词性向量，并基于正则化表达对所述目标词性向量中的元素逐一构建词性判定专家规则，以此构建词性判定器；

矫正单元902，用于利用所述词性判定器对所述交易语言文本中的半结构化信息进行词性判定，并通过关键词匹配的表头识别器对词性判定结果进行矫正；

判定单元903，用于将所述词性判定器嵌入至条件随机场模型中，并利用预先构造的连续字符游标对所述交易语言文本中的非结构化信息逐字符吃进，以进行词性判定；

连接单元904，用于记录每一字符在所述连续字符游标的始末位置，并通过命中判定规则的贪婪度连接每一字符的始末位置，得到对应的局部条件代价距离；

替换单元905，用于根据字符的字段字长构造对应的位置转移矩阵，利用所述局部条件代价距离依次替换所述位置转移矩阵中对应的始末位置的坐标距离值；

路径计算单元906，用于基于所述坐标距离值，通过最短路径算法模型计算所述位置转移矩阵的最短路径，并将所述最短路径上的匹配词作为最优分词方案，以对所述交易语言文本进行交易语境分词以及词性辨识。

在一实施例中，如图10所示，所述段落处理单元703包括：

上下文距离计算单元1001，用于根据交易语境分词结果和词性辨识结果，对所述目标词性向量进行上下文距离计算，并采用编辑距离类算法计算上下文差异度；

差异度判定单元1002，用于采用累积损失方法，对所述上下文差异度进行判定，并根据判定结果对所述交易语言文本分离语段；

缺失值填充单元1003，用于对所述交易语言文本逐句进行词性对齐，并采用前值填充的方式补全每一句子中的缺失值。

在一实施例中，所述最优识别单元704包括：

争议修正单元，用于构造意群争议性词性识别器对所述词性辨识结果产生的群体性争议问题进行修正，并基于优先级规则对修正过程进行逐级分类处理。

在一实施例中，如图11所示，所述争议修正单元包括：

表头特征识别单元1101，用于通过表头关键字符匹配对非结构化消息中的群体性争议问题进行表头特征识别；

值特征识别单元1102，用于结合群体性争议问题的数值值域边界约束、文本枚举类型断言对群体性争议问题进行类别修正，以达到值特征识别；

分布特征识别单元1103，用于获取结构化信息中的群体性争议问题对应的文本类型和数值类型，并对所述文本类型和数值类型进行分布统计，以及根据分布统计结果对群体性争议问题标注词性标签；

矩阵构建单元1104，用于基于词性标签构建对应的争议特征矩阵，并利用有监督模型对所述争议特征矩阵进行训练，得到对应的词性分类结果，然后将所述词性分类结果作为全局最优识别结果。

在一实施例中，如图12所示，所述第一结构化处理单元705包括：

内积计算单元1201，用于根据意群切分及段落补全处理结果构造词性投影矩阵，并计算所述词性投影矩阵与预先设置的检验向量之间的内积，然后根据所述内积判断所述交易语言文本的行情基本要素是否齐备；

第二结构化处理单元1202，用于通过公共属性聚合、非公共列数据对齐或者列重排序方法对所述词性投影矩阵进行矩阵结构化处理；

标准化转化单元1203，用于对所述交易语言文本中的词性进行标准化转化，将词性对应的词值翻译并数值规约为符合生产规范的标准化数据结构；

输出单元1204，用于通过多个异步线程输出所述标准化数据结构。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供了一种分布式计算机单点及集群化部署装置，可以包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口，电源等组件，并支持单机计算、多机并行计算，实现上述实施例所提供的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

21页详细技术资料下载

基于自然语言处理的非结构化交易信息识别方法及系统

相关技术

网友询问留言