智能面试中专业术语的提取方法、装置、设备及介质

文档序号：1185116 发布日期：2020-09-22 浏览：5次 >En<

阅读说明：本技术 智能面试中专业术语的提取方法、装置、设备及介质 (Method, device, equipment and medium for extracting professional terms in intelligent interview ) 是由邓悦金戈徐亮于 2020-04-29 设计创作，主要内容包括：本发明公开了一种智能面试中专业术语的提取方法、装置、计算机设备及存储介质,该方法包括：按照预设N个维度,对应答语句中的每个字符进行分割,得到每个字符对应的N个词组集合,实现将该字符对应的所有词组,均作为候选词组,同时,对历史面试词库中每个词组的词频,确定词组集合的权重信息,实现对候选词组赋予更符合面试场景的权重,通过权重信息确定每个字符的表征信息,再结合字符的表征信息,采用预设的结构简单的序列标记模型,确定应答语句中包含的命名实体,并将命名实体作为专业术语存储至区块链网络中,而无需使用复杂的命名实体提取模型,提高确定命名实体的效率。(The invention discloses a method and a device for extracting professional terms in an intelligent interview, computer equipment and a storage medium, wherein the method comprises the following steps: according to the method, each character in a corresponding sentence is segmented according to preset N dimensions, N phrase sets corresponding to each character are obtained, all phrases corresponding to the character are used as candidate phrases, meanwhile, the weight information of the phrase sets is determined according to the word frequency of each phrase in a historical interview word library, the candidate phrases are endowed with weights more conforming to an interview scene, the representation information of each character is determined through the weight information, then the representation information of the character is combined, a preset sequence marking model with a simple structure is adopted, named entities contained in the responding sentence are determined, the named entities are stored in a block chain network as professional terms, a complex named entity extraction model is not needed, and the efficiency of determining the named entities is improved.)

技术领域

本发明涉及人工智能领域，尤其涉及一种智能面试中专业术语的提取方法、装置、设备及介质。

背景技术

招聘面试是一项费时费力的工作，因为候选人数众多而面试官却有限，面试官需要在一天内连续面试大量候选人。为了及时对候选人的经历提出相关的问题，了解候选人的专业技能掌握情况，提取候选人的经历描述和简历中提到的专业术语并进行进一步的提问就很重要。

但是，专业术语的提取需要依赖命名实体识别，命名实体识别是通过自然语言处理算法进行三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体的提取，现有的算法在分词时会直接给字符选择最有可能的分段标签，而不是考虑所有的可能性，而面试过程中涉及较多的专业术语，这些专业术语中大部分难以被预设好的命名实体收录，使得识别准确率收到训练语料的影响较大，或多或少存在识别准确率不够高的问题，同时，由于使用语料较多，需要复杂结构的模型进行处理，使得运算效率较低。

发明内容

本发明实施例提供一种智能面试中专业术语的提取方法、装置、设备和存储介质，以提在高智能面试中进行专业术语的提取的准确率。

为了解决上述技术问题，本申请实施例提供一种智能面试中专业术语的提取方法，包括：

使用历史面试词库，扫描智能面试中的应答语句，并分别按照预设N个维度，对所述应答语句中的每个字符进行分割，得到每个字符对应的N个词组集合，其中，N为正整数；

对所述历史面试词库中每个词组的出现次数进行统计，得到每个词组的词频，并根据每个所述词组的词频，确定每个字符对应的所述词组集合的权重信息；

对所述权重信息进行平滑处理，得到每个字符在N个所述词组集合中的向量表示；

对每个所述字符的向量表示进行信息提取，得到每个所述字符的表征信息；

结合所述字符的表征信息，采用预设的序列标记模型，确定所述应答语句中包含的命名实体，并将所述命名实体作为所述专业术语。

可选地，N的取值为4，所述预设4个维度中，第一维度为以字符作为命名实体开头的词组，第二维度为以字符作为命名实体中间的词组，第三维度为以字符作为命名实体结尾的词组，第四维度为以字符本身作为命名实体的词组。

可选地，所述根据每个所述词组的词频，确定每个字符对应的所述词组集合的权重信息包括：

针对每个字符，采用如下公式确定所述字符对应的词组集合的权重信息：

其中，v^s为所述词组集合的权重信息，L是字符ω对应的四个词组集合的长度,ω_c表示组成字符ω的词组，z(ω)表示ω_c在所述述历史面试词库中出现的词频，e^ω(ω)代表ω_c的嵌入向量，B、M、E、S分别为四个维度的词组集合。

可选地，所述对所述权重信息进行平滑处理，得到每个字符在N个所述词组集合中的向量表示包括：

针对每个字符，对所述字符对应的N个所述词组集合中的每个词组，按照词频由低到高的顺序进行排序，得到排序结果；

获取预设比例值，根据所述预设比例值，确定选取数量M，并取所述排序结果的前M个词频对应的词组，作为待处理词组；

按照预设的加权方式，提升所述待处理词组的权重，并对所述字符对应的词组集合的权重信息进行更新；

对更新后的词组集合的权重信息进行向量化，得到所述字符在N个所述词组集合中的向量表示。

可选地，所述对每个所述字符的向量表示进行信息提取，得到每个所述字符的表征信息包括：

针对每个所述字符，对N个所述词组集合的向量表示进行串联，得到串联向量；

按照预设的固定维度，对所述串联向量进行维度压缩，得到所述字符的表征信息。

可选地，在所述将所述命名实体作为所述专业术语之后，所述智能面试中专业术语的提取方法还包括：将所述专业术语存储至区块链网络中。

为了解决上述技术问题，本申请实施例还提供一种智能面试中专业术语的提取装置，包括：

词组分割模块，用于使用历史面试词库，扫描智能面试中的应答语句，并分别按照预设N个维度，对所述应答语句中的每个字符进行分割，得到每个字符对应的N个词组集合，其中，N为正整数；

权重确定模块，用于对所述历史面试词库中每个词组的出现次数进行统计，得到每个词组的词频，并根据每个所述词组的词频，确定每个字符对应的所述词组集合的权重信息；

向量表示模块，用于对所述权重信息进行平滑处理，得到每个字符在N个所述词组集合中的向量表示；

字符表征模块，用于对每个所述字符的向量表示进行信息提取，得到每个所述字符的表征信息；

术语确定模块，用于结合所述字符的表征信息，采用预设的序列标记模型，确定所述应答语句中包含的命名实体，并将所述命名实体作为所述专业术语。

可选地，所述词组分割模块包括：所述N的取值为4，所述预设4个维度中，第一维度为以字符作为命名实体开头的词组，第二维度为以字符作为命名实体中间的词组，第三维度为以字符作为命名实体结尾的词组，第四维度为以字符本身作为命名实体的词组。

可选地，所述权重确定模块包括：

权重计算单元，用于针对每个字符，采用如下公式确定所述字符对应的词组集合的权重信息：

其中，v^s为所述词组集合

的权重信息，L是字符ω对应的四个词组集合的长度,ω_c表示组成字符ω的词组，z(ω)表示ω_c在所述述历史面试词库中出现的词频，e^ω(ω)代表ω_c的嵌入向量，B、M、E、S分别为四个维度的词组集合。

可选地，所述向量表示模块包括：

词频排序单元，用于针对每个字符，对所述字符对应的N个所述词组集合中的每个词组，按照词频由低到高的顺序进行排序，得到排序结果；

词组选取单元，用于获取预设比例值，根据所述预设比例值，确定选取数量M，并取所述排序结果的前M个词频对应的词组，作为待处理词组；

权重更新单元，用于按照预设的加权方式，提升所述待处理词组的权重，并对所述字符对应的词组集合的权重信息进行更新；

权重向量化单元，用于对更新后的词组集合的权重信息进行向量化，得到所述字符在N个所述词组集合中的向量表示。

可选地，所述字符表征模块包括：

向量串联单元，用于针对每个所述字符，对N个所述词组集合的向量表示进行串联，得到串联向量；

向量压缩单元，用于按照预设的固定维度，对所述串联向量进行维度压缩，得到所述字符的表征信息。

可选地，所述智能面试中专业术语的提取装置还包括：

存储模块，用于将所述专业术语存储至区块链网络中。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述智能面试中专业术语的提取方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述智能面试中专业术语的提取方法的步骤。

本发明实施例提供的智能面试中专业术语的提取方法、装置、设备及介质，通过使用历史面试词库，扫描智能面试中的应答语句，并分别按照预设N个维度，对应答语句中的每个字符进行分割，得到每个字符对应的N个词组集合，实现将该字符对应的所有词组，均作为候选词组，避免现有分词模型中仅仅根据训练语料中的最高概率进行候选词组筛选，过分依赖训练语料，有利于提高专业术语提取的准确性，同时，对历史面试词库中每个词组的出现次数进行统计，得到每个词组的词频，并根据每个词组的词频，确定每个字符对应的词组集合的权重信息，对权重信息进行平滑处理，得到每个字符在N个词组集合中的向量表示，实现结合历史面试的词组信息，来对候选词组赋予更符合面试场景的权重，有利于提高专业术语提取的准确性，进而对每个字符的向量表示进行信息提取，得到每个字符的表征信息，结合字符的表征信息，采用简单通用的序列标记模型，确定应答语句中包含的命名实体，并将命名实体作为专业术语，避免通过复杂的命名实体提取模型进行命名实体的确定，提高确定命名实体的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是本申请的智能面试中专业术语的提取方法的一个实施例的流程图；

图3是根据本申请的智能面试中专业术语的提取装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E界面显示perts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureE界面显示perts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的智能面试中专业术语的提取方法由服务器执行，相应地，智能面试中专业术语的提取装置设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。

请参阅图2，图2示出本发明实施例提供的一种智能面试中专业术语的提取方法，以该方法应用在图1中的服务端为例进行说明，详述如下：

S201：使用历史面试词库，扫描智能面试中的应答语句，并分别按照预设N个维度，对应答语句中的每个字符进行分割，得到每个字符对应的N个词组集合，其中，N为正整数。

具体地，通过历史面试词库，来对智能面试中的应答语句进行扫描识别，对每个应答语句进行近义词和同义词进行识别，并通过预设的N个维度，对应答语句中的每个字符进行分割，每次分割，得到一个该字符对应的词组集合，一共得到N个该字符得到的词组集合，其中，N为正整数。

其中，历史面试词库是指对历史面试中的提问语句和应答语句进行分析处理后，得到的分词词库。

其中，一个词组集合为通过一个维度进行分割得到的词组的集合。

优选的，本实施例中N的取值为4，预设的4个维度分别为预设4个维度中，第一维度为以字符作为命名实体开头的词组，第二维度为以字符作为命名实体中间的词组，第三维度为以字符作为命名实体结尾的词组，第四维度为以字符本身作为命名实体的词组。

例如，在一具体实施方式中，句子s中的一个字符为c，分别简历4个分割标签B(c)、M(c)、E(c)和S(c)，其中，B(c)为句子s上所有以字符c作为命名实体开头的词组组成的集合，M(c)为句子s上所有以字符c作为命名实体的中间部分的词组组成的集合，E(c)为句子s上所有以字符c作为命名实体结尾的词组组成的集合，S(c)是指以字符c作为命名实体。

应理解，采用这4个维度进行词组分词，有效确保不遗漏任何命名实体，有利于提高后续命名实体识别的准确性。

需要说明的是，如果词组集合为空，将在其中添加特殊单词“NONE”以指示这种情况。通过这种方式，引入预训练的单词嵌入，同时，可以从每个字符的词组集合中准确恢复相应的匹配结果。

S202：对历史面试词库中每个词组的出现次数进行统计，得到每个词组的词频，并根据每个词组的词频，确定每个字符对应的词组集合的权重信息。

具体地，得到每个字符对应的N个词组集合，保证字符对应的所有词组均不会遗漏之后，需要结合智能面试的实际场景，对每个词组的重要程度进行区分，以便后续进行命名实体识别时实现快速标注，提高命名实体识别的效率，在本实施例中，通过统计与智能面试场景相关的历史面试词库中每个词组的出现次数，来确定每个词组的词频，进而根据每个词组的词频，来确定字符对应的词组集合的权重信息。

其中，词组的词频是静态值，可以通过预先统计计算得到，并存储到数据表格中，在需要使用时，通过查表的方式获取，以提高权重信息确定的效率，也可以根据实际需要对词组的词频进行更新。

应理解，为了提高计算效率，本实施例使用词组出现的频率以表示该词组的权重，因为指定单字序列在历史面试词库中出现的次数越多，那么这个序列越有可能是一个词组。

其中，根据每个词组的词频，确定每个字符对应的词组集合的权重信息的具体实现过程，可参考后续实施例的描述，为避免重复，此处不再赘述。

S203：对权重信息进行平滑处理，得到每个字符在N个词组集合中的向量表示。

具体地，通过平滑处理，对权重较小的词组进行权重优化，避免因权重差距太大，导致权重较小的词组在后续标注过程中被忽视，可能导致权重较小的词组对应的命名实体的缺失，在平滑处理后，对N个词组集合的权重信息进行更新并向量化，得到每个字符在N个词组集合中的向量表示。

需要说明的是，不平滑的权重信息，对后续进行信息提取时的数据拟合会产生影响，容易导致信息提取不够准确，因而需要对权重信息进行平滑处理，本实施例中的平滑处理，是指通过一些数学模型，对不符合要求的权重进行优化，使得整体权重信息处于一个合理的范围，有利于后续的信息提取。

其中，对权重信息进行平滑处理的具体过程，可参考后续实施例的描述，为避免重复，此处不再赘述。

S204：对每个字符的向量表示进行信息提取，得到每个字符的表征信息。

具体地，在得到每个字符的向量表示后，从该向量表示中进行关键信息的提取，得到固定维度的表征信息，以便后续将该表征信息输入到序列标机模型中，进行命名实体的确定。

其中，表征信息是用于对字符与各个词组之间的关联进行表征的固定维度的向量。

对每个字符的向量表示进行信息提取，得到每个字符的表征信息的具体实现过程，可参考后续实施例的描述，为避免重复，此处不再赘述。

S205：结合字符的表征信息，采用预设的序列标记模型，确定应答语句中包含的命名实体，并将命名实体作为专业术语。

具体地，在获取到每个字符的表征信息后，采用预设的序列标记模型对应答语句进行命名实体识别，即可快速准确得到该应答语句中包含的命名实体，也即，可快速提取到候选人的应答语句中提到的专业术语。

其中，命名实体((named entity))识别是指在文档集合中识别出特定类型的事物名称或符号的过程。命名实体识别由3个问题组成：识别出文本中的命名实体；确定该实体的类型；对于多个实体表示同一事物时，选择其中的一个实体作为该组实体的代表。

在本实施例中，命名实体识别主要是指从候选人的应答语句中，识别出专业术语，以后后续根据识别出的专业术语，对候选人的面试情况进行评估，例如，辨别简历中的经历和应答中是否一致，也即，验证候选人的应答可信度，或者，检验候选人的专业能力。

其中,序列标记模型包括但不限于：条件随机场模型(Conditional RandomField，CRF)、隐马尔可夫模型(Hidden Markov Model，HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model，MEMM)等。本实施例中预设的序列标记模型具体可以是现有的序列标记模型中的任意一种，此处不做更多限定。

需要说明的是，在步骤S204中，得到了字符的表征信息，在序列标记模型中，使用该表征信息对字符进行加权，有利于序列标记模型快速进行关键特征的标注，提高标注的准确性和效率。

在本实施例中，通过使用历史面试词库，扫描智能面试中的应答语句，并分别按照预设N个维度，对应答语句中的每个字符进行分割，得到每个字符对应的N个词组集合，实现将该字符对应的所有词组，均作为候选词组，避免现有分词模型中仅仅根据训练语料中的最高概率进行候选词组筛选，过分依赖训练语料，有利于提高专业术语提取的准确性，同时，对历史面试词库中每个词组的出现次数进行统计，得到每个词组的词频，并根据每个词组的词频，确定每个字符对应的词组集合的权重信息，对权重信息进行平滑处理，得到每个字符在N个词组集合中的向量表示，实现结合历史面试的词组信息，来对候选词组赋予更符合面试场景的权重，有利于提高专业术语提取的准确性，进而对每个字符的向量表示进行信息提取，得到每个字符的表征信息，结合字符的表征信息，采用简单通用的序列标记模型，确定应答语句中包含的命名实体，并将命名实体作为专业术语，避免通过复杂的命名实体提取模型进行命名实体的确定，提高确定命名实体的效率。

在一实施例中，可将提取的专业术语保存在区块链网络上，通过区块链存储，实现数据信息在不同平台之间的共享，也可防止数据被篡改。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

在本实施例的一些可选的实现方式中，步骤S202中，根据每个词组的词频，确定每个字符对应的词组集合的权重信息包括：

针对每个字符，采用如下公式确定字符对应的词组集合的权重信息：

其中，v^s为词组集合的权重信息，L是字符ω对应的四个词组集合的长度,ω_c表示组成字符ω的词组，z(ω)表示ω_c在述历史面试词库中出现的词频，e^ω(ω)代表ω_c的嵌入向量，B、M、E、S分别为四个维度的词组集合。

具体地，通过上述公式，对每个词组集合的权重信息进行计算，以便后续根据每个词组集合的权重信息生成对应的向量表示。

其中，其中，嵌入向量(WordEmbedding)是自然语言处理中的一个重要的概念，用于将一个单词转换成固定长度的向量表示，从而便于进行数学处理，嵌入向量具体可以通过将字符输入到开源的tensorflow模型进行生成，也可以将字符对应的词组用序列的形式进行表示，再通过tf.nn.embedding_lookup函数将序列转换成嵌入向量。

在本实施例中，通过设置好的公式计算，得到字符对应的词组集合的权重信息，以便后续通过权重信息得到字符的表征信息，通过对字符对应的不同词组赋予不同的权重，使得与面试场景的契合度更高，有利于提高后续命名实体提取的准确率。

在本实施例的一些可选的实现方式中，步骤S203中，对权重信息进行平滑处理，得到每个字符在N个词组集合中的向量表示包括：

针对每个字符，对字符对应的N个词组集合中的每个词组，按照词频由低到高的顺序进行排序，得到排序结果；

获取预设比例值，根据预设比例值，确定选取数量M，并取排序结果的前M个词频对应的词组，作为待处理词组；

按照预设的加权方式，提升待处理词组的权重，并对字符对应的词组集合的权重信息进行更新；

对更新后的词组集合的权重信息进行向量化，得到字符在N个词组集合中的向量表示。

具体地，通过对字符对应的N个词组集合中的词组进行词频排序，并按预设条件选取需要进行平滑处理的词组进行平滑处理，进而对权重信息进行更新，再讲更新后的权重信息向量化，得到字符在N个词组集合中的向量表示。

其中，预设比例值可根据实际需要进行设置，例如，在一具体实施方式中，预设比较值为10％。

其中，M的值根据预设比较值与词组集合中的词组数量的乘积来确定。

其中，预设的加权方式可根据实际需要来选取，本实施例中，通过如下公式来进行加权：

其中，a为一常数，其数值由待处理词组中的最大词频决定。

例如，在一具体实施方式中，预设比例值为10％，词组集合中的词组数量为180，则对应的M的数值为18，按照词频进行排序后，取处于序列的最后18个词频对应的词组，作为待处理词组，并将待处理词组中的最大词频，作为该常数a。

在本实施例中，通过对词频较低的词组的权重进行适当平滑处理，避免词频较低的词组在后续失去作用，导致漏掉可能的命名实体。

在本实施例的一些可选的实现方式中，步骤S204中，对每个字符的向量表示进行信息提取，得到每个字符的表征信息包括：

针对每个字符，对N个词组集合的向量表示进行串联，得到串联向量；

按照预设的固定维度，对串联向量进行维度压缩，得到字符的表征信息。

具体地，在得到字符在N个词组中的向量表示后，为更佳精确地确定该字符对应的词组组合方式，通过预设方式，对每个字符对应的N个词组的向量标识进行压缩，得到一个固定维度的向量。

在本实施例中，为了保留尽可能多的信息，采用的预设方式为串联这四个词组集合，将其表示成一个整体，得到这个字符的单字表征，，采用如下公式进行压缩：

其中，e^s表示字符对应的嵌入向量，

表示向量串联，v^s表示将对应词组集合映射到稠密向量的函数，x^c是字符对应的表征信息。

在本实施例中，通过对词组集合的向量表示进行串联，得到串联向量，并将串联向量压缩到固定维度，以便后续输入到预设的序列标记模型进行命名实体的确定。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图3示出与上述实施例智能面试中专业术语的提取方法一一对应的智能面试中专业术语的提取装置的原理框图。如图3所示，该智能面试中专业术语的提取装置包括词组分割模块31、权重确定模块32、向量表示模块33、字符表征模块34和术语确定模块35。各功能模块详细说明如下：

词组分割模块31，用于使用历史面试词库，扫描智能面试中的应答语句，并分别按照预设N个维度，对应答语句中的每个字符进行分割，得到每个字符对应的N个词组集合，其中，N为正整数；

权重确定模块32，用于对历史面试词库中每个词组的出现次数进行统计，得到每个词组的词频，并根据每个词组的词频，确定每个字符对应的词组集合的权重信息；

向量表示模块33，用于对权重信息进行平滑处理，得到每个字符在N个词组集合中的向量表示；

字符表征模块34，用于对每个字符的向量表示进行信息提取，得到每个字符的表征信息；

术语确定模块35，用于结合字符的表征信息，采用预设的序列标记模型，确定应答语句中包含的命名实体，并将命名实体作为专业术语。

可选地，词组分割模块31包括：N的取值为4，预设4个维度中，第一维度为以字符作为命名实体开头的词组，第二维度为以字符作为命名实体中间的词组，第三维度为以字符作为命名实体结尾的词组，第四维度为以字符本身作为命名实体的词组。

可选地，权重确定模块32包括：

权重计算单元，用于针对每个字符，采用如下公式确定字符对应的词组集合的权重信息：

可选地，向量表示模块33包括：

词频排序单元，用于针对每个字符，对字符对应的N个词组集合中的每个词组，按照词频由低到高的顺序进行排序，得到排序结果；

词组选取单元，用于获取预设比例值，根据预设比例值，确定选取数量M，并取排序结果的前M个词频对应的词组，作为待处理词组；

权重更新单元，用于按照预设的加权方式，提升待处理词组的权重，并对字符对应的词组集合的权重信息进行更新；

权重向量化单元，用于对更新后的词组集合的权重信息进行向量化，得到字符在N个词组集合中的向量表示。

可选地，字符表征模块34包括：

向量串联单元，用于针对每个字符，对N个词组集合的向量表示进行串联，得到串联向量；

向量压缩单元，用于按照预设的固定维度，对串联向量进行维度压缩，得到字符的表征信息。

可选地，智能面试中专业术语的提取装置还包括：

存储模块，用于将专业术语存储至区块链网络中。

关于智能面试中专业术语的提取装置的具体限定可以参见上文中对于智能面试中专业术语的提取方法的限定，在此不再赘述。上述智能面试中专业术语的提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如电子文件的控制的程序代码等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据，例如运行电子文件的控制的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的智能面试中专业术语的提取方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

16页详细技术资料下载

智能面试中专业术语的提取方法、装置、设备及介质

相关技术

网友询问留言