基于人工智能的文本分类方法、装置、电子设备及介质

文档序号:1963785 发布日期:2021-12-14 浏览:15次 >En<

阅读说明:本技术 基于人工智能的文本分类方法、装置、电子设备及介质 (Text classification method and device based on artificial intelligence, electronic equipment and medium ) 是由 孙金辉 马骏 王少军 于 2021-09-17 设计创作,主要内容包括:本发明涉及人工智能技术领域,提供一种基于人工智能的文本分类方法、装置、电子设备及介质,所述方法包括:构建搜索空间;采用预设的搜索策略随机选取目标文本增强策略;使用目标文本增强策略对原始文本集进行文本增强得到第一增强文本集;根据原始文本集和第一增强文本集计算验证通过率;并确定目标文本分类模型和最优文本增强策略;采用最优文本增强策略对待分类文本集进行文本增强得到第三增强文本集,将第三增强文本集和待分类文本集输入至目标文本分类模型中,得到文本分类结果。本发明通过构建搜索空间及采用预设的搜索策略,为每个数据集定制化搜索出最优文本增强策略,提高了文本分类的准确率。(The invention relates to the technical field of artificial intelligence, and provides a text classification method, a text classification device, electronic equipment and a text classification medium based on artificial intelligence, wherein the method comprises the following steps: constructing a search space; randomly selecting a target text enhancement strategy by adopting a preset search strategy; performing text enhancement on the original text set by using a target text enhancement strategy to obtain a first enhanced text set; calculating a verification passing rate according to the original text set and the first enhanced text set; determining a target text classification model and an optimal text enhancement strategy; and performing text enhancement on the text set to be classified by adopting an optimal text enhancement strategy to obtain a third enhanced text set, and inputting the third enhanced text set and the text set to be classified into a target text classification model to obtain a text classification result. According to the method, the search space is constructed, the preset search strategy is adopted, the optimal text enhancement strategy is searched for each data set in a customized mode, and the accuracy of text classification is improved.)

基于人工智能的文本分类方法、装置、电子设备及介质

技术领域

本发明涉及人工智能技术领域,具体涉及一种基于人工智能的文本分类方法、装置、电子设备及介质。

背景技术

文本分类任务是自然语言处理中最重要的任务之一。目前,深度学习模型已经广泛应用于文本分类任务中,比如CNN、RNN等模型,通过对大量文本进行标注后进行文本增强。

然而,现有技术标注文本需要消耗大量的人力和时间,同时在进行文本增强时需要人工设置一些超参数,超参数是通过人工经验和大量的对比实验后得到的,在文本增强时无法快速精确的找到最优文本增强策略,导致文本分类结果准确率和效率低下。

因此,有必要提出一种可以精确的进行文本分类的方法。

发明内容

鉴于以上内容,有必要提出一种基于人工智能的文本分类方法、装置、电子设备及介质,通过构建搜索空间及采用预设的搜索策略,为每个数据集定制化搜索出最优文本增强策略,提高了文本分类的准确率。

本发明的第一方面提供一种基于人工智能的文本分类方法,所述方法包括:

解析接收到的文本分类请求,构建一个搜索空间,其中,所述搜索空间中包含有多个文本增强策略;

采用预设的搜索策略从所述搜索空间中随机选取一个文本增强策略,作为目标文本增强策略,其中,所述预设的搜索策略中包含有一个控制器;

使用所述目标文本增强策略对文本分类请求中原始文本集中的每个文本进行文本增强,得到第一增强文本集;

将所述原始文本集和所述第一增强文本集输入至预设的神经网络中进行训练,得到第一文本分类模型;

将所述文本分类请求中的验证集输入至所述第一文本分类模型中进行验证,并计算验证通过率;

根据所述验证通过率确定所述文本分类请求对应的目标文本分类模型和最优文本增强策略;

采用所述最优文本增强策略对所述文本分类请求中的待分类文本集进行文本增强,得到第三增强文本集,将所述第三增强文本集和所述待分类文本集输入至所述目标文本分类模型中,得到文本分类结果。

可选地,所述解析接收到的文本分类请求,构建一个搜索空间包括:

解析接收到的文本分类请求,获取四类超参数:类别标签、操作类型、应用类型的概率值及每个文本中应用操作的词的比例;

对所述四类超参数进行组合运算,得到多个文本增强策略,其中,每个所述文本增强策略由所述四类超参数组成;

基于所述多个文本增强策略构建一个搜索空间。

可选地,所述操作类型包括以下一种或者多种方式的组合:同义词替换、随机插入、随机交换、随机删除。

可选地,所述采用预设的搜索策略从所述搜索空间中随机选取一个文本增强策略,作为目标文本增强策略包括:

将所述多个文本增强策略输入至所述预设的搜索策略的控制器中,所述控制器从所述多个文本增强策略中随机选取任意一类超参数中的一个超参数作为所述控制器当前时间步的输入参数,将所述当前时间步的输入参数输入至所述控制器中,输出当前时间步的输出值;

所述控制器从所述多个文本增强策略中随机选取剩余的任意一类超参数中的一个超参数作为下一个时间步的输入参数,将所述下一个时间步的第一输入参数和所述当前时间步的输出值作为下一个时间步的目标输入参数,将所述下一个时间步的目标输入参数输入至所述控制器中,输出下一个时间步的输出值;

循环执行所述四类超参数的选择及输入参数的确定,直至得到每个所述超参数对应的输出参数,并将所述四类超参数对应的四个输出值确定为目标文本增强策略。

可选地,所述使用所述目标文本增强策略对文本分类请求中原始文本集中的每个文本进行文本增强,得到第一增强文本集包括:

识别所述目标文本增强策略中的每个超参数对应的输出值;

基于每个所述超参数对应的输出值对所述原始文本集中的每个文本进行文本增强,得到第一增强文本。

可选地,所述根据所述验证通过率确定所述文本分类请求对应的目标文本分类模型和最优文本增强策略包括:

当所述验证通过率满足所述文本分类请求中的预设收敛条件时,将所述第一文本分类模型确定为目标文本分类模型及将所述目标文本增强策略确定为最优文本增强策略。

可选地,所述方法还包括:

当所述验证通过率不满足所述文本分类请求中的预设收敛条件时,基于所述验证通过率更新所述控制器中的模型参数,得到更新后的控制器;

采用所述更新后的控制器从所述搜索空间中随机选取新的文本增加策略,作为新的目标文本增强策略,并使用所述新的目标文本增强策略对所述原始文本集进行文本增强,得到第二增强文本集;

将所述原始文本集和所述第二增强文件集输入至所述预设的神经网络中进行训练,得到第二文本分类模型,将所述文本分类请求中的验证集输入至所述第二文本分类模型中进行验证,并计算验证通过率;

重复执行所述根据验证通过率更新所述控制器中的模型参数重新选取新的文本增强策略进行文本增强,得到验证通过率,直至所述验证通过率满足所述控制器对应的预设收敛条件,将所述验证通过率对应的文本分类模型确定为目标文本分类模型及将所述验证通过率对应的新的目标文本增强策略确定为最优文本增强策略。

本发明的第二方面提供一种基于人工智能的文本分类装置,所述装置包括:

解析模块,用于解析接收到的文本分类请求,构建一个搜索空间,其中,所述搜索空间中包含有多个文本增强策略;

选取模块,用于采用预设的搜索策略从所述搜索空间中随机选取一个文本增强策略,作为目标文本增强策略,其中,所述预设的搜索策略中包含有一个控制器;

文本增强模块,用于使用所述目标文本增强策略对文本分类请求中原始文本集中的每个文本进行文本增强,得到第一增强文本集;

第一输入模块,用于将所述原始文本集和所述第一增强文本集输入至预设的神经网络中进行训练,得到第一文本分类模型;

验证模块,用于将所述文本分类请求中的验证集输入至所述第一文本分类模型中进行验证,并计算验证通过率;

确定模块,用于根据所述验证通过率确定所述文本分类请求对应的目标文本分类模型和最优文本增强策略;

第二输入模块,用于采用所述最优文本增强策略对所述文本分类请求中的待分类文本集进行文本增强,得到第三增强文本集,将所述第三增强文本集和所述待分类文本集输入至所述目标文本分类模型中,得到文本分类结果。

本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于人工智能的文本分类方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于人工智能的文本分类方法。

综上所述,本发明所述的基于人工智能的文本分类方法、装置、电子设备及介质,一方面,通过采用所述文本分类请求对应的所有的文本增强策略构建一个搜索空间,确保了搜索空间中文本增强策略的完整性,提高了后续从所述搜索空间中选取的最优的文本增强策略的准确率;另一方面,采用预设的搜索策略中的控制器从所述搜索空间中随机选取一个文本增强策略,由于所述控制器的下一个时间步的输入参数由上一个时间步的输出值和下一个时间步的输入参数共同决定,在下一个文本处理时,上一个输出也对它有影响,提高了文本的关联性,确保得到的每个超参数的输出值的可靠性,提高了随机选取的文本增强策略准确率;最后,通过采用随机选取的目标文本增强策略对原始文本集中的每个文本进行文本增强,不需要进行人工标注,无需耗费大量的人力和时间,提高了文本增强的效率及准确率。

附图说明

图1是本发明实施例一提供的基于人工智能的文本分类方法的流程图。

图2是本发明实施例二提供的基于人工智能的文本分类装置的结构图。

图3是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

实施例一

图1是本发明实施例一提供的基于人工智能的文本分类方法的流程图。

在本实施例中,所述基于人工智能的文本分类方法可以应用于电子设备中,对于需要进行基于人工智能的文本分类的电子设备,可以直接在电子设备上集成本发明的方法所提供的基于人工智能的文本分类的功能,或者以软件开发工具包(SoftwareDevelopment Kit,SDK)的形式运行在电子设备中。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。

如图1所示,所述基于人工智能的文本分类方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

S11,解析接收到的文本分类请求,构建一个搜索空间,其中,所述搜索空间中包含有多个文本增强策略。

本实施例中,用户在进行文本分类时,通过客户端发起文本分类请求至服务端,具体地,所述客户端可以是智能手机、IPAD或者其他现有的智能设备,所述服务端可以为文本分类子系统,在文本分类过程中,如所述客户端可以向文本分类子系统发送文本分类请求,所述文本分类子系统用于接收所述客户端发送的文本分类请求,对所述文本分类请求进行解析,根据解析结果构建一个搜索空间。

在一个可选的实施例中,所述解析接收到的文本分类请求,构建一个搜索空间包括:

解析接收到的文本分类请求,获取四类超参数:类别标签、操作类型、应用类型的概率值及每个文本中应用操作的词的比例;

对所述四类超参数进行组合运算,得到多个文本增强策略,其中,每个所述文本增强策略由所述四类超参数组成;

基于所述多个文本增强策略构建一个搜索空间。

本实施例中,若文本分类请求中包含有5种类别标签、4种操作类型,11种应用类型的概率值、11种应用操作的词的比例,则构建的搜索空间中包含有5×4×11×11=2420种文本增强策略。

具体地,所述类别标签指的是同一种类型的文本。

具体地,所述操作类型包括以下一种或者多种方式的组合:同义词替换、随机插入、随机交换、随机删除。

本实施例中,所述应用类型的概率指的是文本增强的概率,可以被离散化为0-1的11个值,其中,0-1之间的间隔设置为0.1;应用操作的词的比例指的是从每个文本中选取词的比例,可以被离散化为0-0.5的11个值,其中,0-0.5之间的间隔设置为0.05。

本实施例中,通过采用所述文本分类请求对应的所有的文本增强策略构建一个搜索空间,确保了搜索空间中文本增强策略的完整性,提高了后续从所述搜索空间中选取的最优的文本增强策略的准确率。

S12,采用预设的搜索策略从所述搜索空间中随机选取一个文本增强策略,作为目标文本增强策略,其中,所述预设的搜索策略中包含有一个控制器。

本实施例中,所述预设的搜索策略可以为ENAS(Efficient Neural ArchitectureSearch)搜索策略,所述ENAS搜索策略通过共享模型参数的形式高效实现神经网络模型结构的探索,具体的,所述预设的搜索策略使用一个控制器,所述控制器为RNN模型,所述RNN模型决定每个节点的计算类型和选择激活的边。

在一个可选的实施例中,所述采用预设的搜索策略从所述搜索空间中随机选取一个文本增强策略,作为目标文本增强策略包括:

将所述多个文本增强策略输入至所述预设的搜索策略的控制器中,所述控制器从所述多个文本增强策略中随机选取任意一类超参数中的一个超参数作为所述控制器当前时间步的输入参数,将所述当前时间步的输入参数输入至所述控制器中,输出当前时间步的输出值;

所述控制器从所述多个文本增强策略中随机选取剩余的任意一类超参数中的一个超参数作为下一个时间步的输入参数,将所述下一个时间步的第一输入参数和所述当前时间步的输出值作为下一个时间步的目标输入参数,将所述下一个时间步的目标输入参数输入至所述控制器中,输出下一个时间步的输出值;

循环执行所述四类超参数的选择及输入参数的确定,直至得到每个所述超参数对应的输出参数,并将所述四类超参数对应的四个输出值确定为目标文本增强策略。

本实施例中,所述控制器的在每个时间步都有一个输入,本实施例中包含有四个超参数,每个时间步分别对应所述四个超参数中的任意一个超参数,将每个时间步的输出参数输入值控制器中,通过所述控制器的Softmax层,得到每个所述超参数对应的输出值。由于所述控制器的下一个时间步的输入参数由上一个时间步的输出值和下一个时间步的输入参数共同决定,在下一个文本处理时,上一个输出也对它有影响,提高了文本的关联性,确保得到的每个超参数的输出值的可靠性,提高了随机选取的文本增强策略准确率。

S13,使用所述目标文本增强策略对文本分类请求中原始文本集中的每个文本进行文本增强,得到第一增强文本集。

本实施例中,所述文本分类请求中还包含有原始文本集,所述原始文本集中包含有多个文本。

在一个可选的实施例中,在所述使用所述目标文本增强策略对文本分类请求中原始文本集中的每个文本进行文本增强,得到第一增强文本集之前,所述方法还包括:

按照预设的文本清洗策略清洗所述原始文本集中的每个文本。

本实施例中,可以预先设置文本清洗策略,所述预设的文本清洗策略可以为对时间、日期、数值、全半角等显示格式不一致、内容中有不该存在的字符及、内容与该字段应有内容不符的文本进行清洗。

本实施例中,通过对所述原始文本集中的每个文本进行清洗,减少干扰后续文本增强因素,提高了文本增强效率及准确率。

在一个可选的实施例中,所述使用所述目标文本增强策略对文本分类请求中原始文本集中的每个文本进行文本增强,得到第一增强文本集包括:

识别所述目标文本增强策略中的每个超参数对应的输出值;

基于每个所述超参数对应的输出值对所述原始文本集中的每个文本进行文本增强,得到第一增强文本。

示例性地,若所述目标文本增强策略中包含的超参数:类别标签为A类,操作类型对应的输出值为:随机删除,应用操作的词的比例对应的输出值为:0.2,应用类型的概率为:1,原始文本集中的一个文本:“我是中国人”,采用所述目标文本增强策略得到第一增强文本为:“我是中国”或者“我中国人”或者“是中国人”。

示例性地,若所述目标文本增强策略中包含的超参数:类别标签为A类,操作类型对应的输出值为:随机删除,应用操作的词的比例对应的输出值为:0.4,应用类型的概率为:1,原始文本集中的一个文本:“我是中国人”,采用所述目标文本增强策略得到第一增强文本为:“我是中”或者“我中国”或者“我国人”或者“是中国”或者“是国人”或者“中国人”。

本实施例中,数据增强技术被广泛应用于有效的利用有限的标注语料提升模型的效率,并减少对标注数据量的依赖,本实施例通过采用随机选取的目标文本增强策略对原始文本集中的每个文本进行文本增强,确保了后续输入值预设的神经网络中的文本集的多样性及完整性,特别是针对小样本数据集和类别不均衡的数据集,通过文本增强策略可以增强小样本数据集的数据量及将类别不均衡的数据集增强至均衡,提高了后续采用增强后的数据集训练的模型的有效性和鲁棒性,同时,通过采用随机选取的目标文本增强策略对原始文本集中的每个文本进行文本增强,不需要进行人工标注,无需耗费大量的人力和时间,提高了文本增强的效率及准确率。

S14,将所述原始文本集和所述第一增强文本集输入至预设的神经网络中进行训练,得到第一文本分类模型。

本实施例中,可以预先设置神经网络,所述预设的神经网络可以为现有的卷积神经网络或者逆图形网络等,在得到原始文本集和第一增强文本集之后,基于所述原始文本集和所述第一增强文件集训练文本分类模型。

S15,将所述文本分类请求中的验证集输入至所述第一文本分类模型中进行验证,并计算验证通过率。

本实施例中,所述文本分类请求中还包含有验证集,在训练好第一文本分类模型之后,基于所述验证集计算所述第一文本分类模型的通过率,根据验证通过率可以确定所述第一文本分类模型是否稳定。

S16,根据所述验证通过率确定所述文本分类请求对应的目标文本分类模型和最优文本增强策略。

本实施例中,所述目标文本分类模型指的是验证通过率对应的文本分类模型,所述最优文本增强策略指的是采用选取的文本增强策略后对文本增强后,使得训练得到的目标文本分类模型得到的验证通过率达到所述文本分类请求中的预设收敛条件,具体地,所述预设收敛条件指的是根据所述验证通过率可以确定所述控制器是否收敛,只有当所述控制器收敛时,得到的文本增强策略确定为最优文本增强策略,例如,所述预设收敛条件可以为验证通过率大于或者等于预设的验证通过率阈值,或者通过最优文本增强策略在文本分类模型上的验证通过率不再提升。

在一个可选的实施例中,所述根据所述验证通过率确定所述文本分类请求对应的目标文本分类模型和最优文本增强策略包括:

当所述验证通过率满足所述文本分类请求中的预设收敛条件时,将所述第一文本分类模型确定为目标文本分类模型及将所述目标文本增强策略确定为最优文本增强策略;或者

当所述验证通过率不满足所述文本分类请求中的预设收敛条件时,基于所述验证通过率更新所述控制器中的模型参数,得到更新后的控制器,采用所述更新后的控制器从所述搜索空间中随机选取新的文本增加策略,作为新的目标文本增强策略,并使用所述新的目标文本增强策略对所述原始文本集进行文本增强,得到第二增强文本集,并将所述原始文本集和所述第二增强文件集输入至所述预设的神经网络中进行训练,得到第二文本分类模型,将所述文本分类请求中的验证集输入至所述第二文本分类模型中进行验证,并计算验证通过率,重复执行所述根据验证通过率更新所述控制器中的模型参数重新选取新的文本增强策略进行文本增强,得到验证通过率,直至所述验证通过率满足所述控制器对应的预设收敛条件,将所述验证通过率对应的文本分类模型确定为目标文本分类模型及将所述验证通过率对应的新的目标文本增强策略确定为最优文本增强策略。

本实施例中,所述第二增强文本集是通过更新所述控制器中的文本增强策略后采用新的文本增强策略得到的。

本实施例中,通过构建搜索空间及采用预设的搜索策略,为每个数据集定制化搜索出最优文本增强策略,提高了文本分类的准确率。

S17,采用所述最优文本增强策略对所述文本分类请求中的待分类文本集进行文本增强,得到第三增强文本集,将所述第三增强文本集和所述待分类文本集输入至所述目标文本分类模型中,得到文本分类结果。

本实施例中,所述最优文本增强策略是通过构建搜索空间,采用预设的搜索策略搜索目标文本增强策略,基于所述目标文本增强策略在所述目标文本分类模型中的验证通过率,确定出最优文本增强策略,所述最优文本增强策略不是通过人工设置超参数后通过人工经验和大量的对比实验得到的,是通过采用搜索策略搜索得到的,提高了确定的最优文本增强策略的准确率和效率。

本实施例中,通过采用搜索策略确定出最优文本增强策略和目标文本分类模型,采用所述最优文本增强策略对待分类文本集进行文本增强,确保得到的第三增强文本集是最稳定的,同时将所述待分类文本集和所述第三增强文本集输入至所述目标文本分类模型中进行文本分类,提高了文本分类的准确率。

综上所述,本实施例所述的基于人工智能的文本分类方法,一方面,通过采用所述文本分类请求对应的所有的文本增强策略构建一个搜索空间,确保了搜索空间中文本增强策略的完整性,提高了后续从所述搜索空间中选取的最优的文本增强策略的准确率;另一方面,采用预设的搜索策略中的控制器从所述搜索空间中随机选取一个文本增强策略,由于所述控制器的下一个时间步的输入参数由上一个时间步的输出值和下一个时间步的输入参数共同决定,在下一个文本处理时,上一个输出也对它有影响,提高了文本的关联性,确保得到的每个超参数的输出值的可靠性,提高了随机选取的文本增强策略准确率;最后,通过采用随机选取的目标文本增强策略对原始文本集中的每个文本进行文本增强,不需要进行人工标注,无需耗费大量的人力和时间,提高了文本增强的效率及准确率。

实施例二

图2是本发明实施例二提供的基于人工智能的文本分类装置的结构图。

在一些实施例中,所述基于人工智能的文本分类装置20可以包括多个由程序代码段所组成的功能模块。所述基于人工智能的文本分类装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)基于人工智能的文本分类的功能。

本实施例中,所述基于人工智能的文本分类装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:解析模块201、选取模块202、文本增强模块203、第一输入模块204、验证模块205、确定模块206及第二输入模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

解析模块201,用于解析接收到的文本分类请求,构建一个搜索空间,其中,所述搜索空间中包含有多个文本增强策略。

本实施例中,用户在进行文本分类时,通过客户端发起文本分类请求至服务端,具体地,所述客户端可以是智能手机、IPAD或者其他现有的智能设备,所述服务端可以为文本分类子系统,在文本分类过程中,如所述客户端可以向文本分类子系统发送文本分类请求,所述文本分类子系统用于接收所述客户端发送的文本分类请求,对所述文本分类请求进行解析,根据解析结果构建一个搜索空间。

在一个可选的实施例中,所述解析模块201解析接收到的文本分类请求,构建一个搜索空间包括:

解析接收到的文本分类请求,获取四类超参数:类别标签、操作类型、应用类型的概率值及每个文本中应用操作的词的比例;

对所述四类超参数进行组合运算,得到多个文本增强策略,其中,每个所述文本增强策略由所述四类超参数组成;

基于所述多个文本增强策略构建一个搜索空间。

本实施例中,若文本分类请求中包含有5种类别标签、4种操作类型,11种应用类型的概率值、11种应用操作的词的比例,则构建的搜索空间中包含有5×4×11×11=2420种文本增强策略。

具体地,所述类别标签指的是同一种类型的文本。

具体地,所述操作类型包括以下一种或者多种方式的组合:同义词替换、随机插入、随机交换、随机删除。

本实施例中,所述应用类型的概率指的是文本增强的概率,可以被离散化为0-1的11个值,其中,0-1之间的间隔设置为0.1;应用操作的词的比例指的是从每个文本中选取词的比例,可以被离散化为0-0.5的11个值,其中,0-0.5之间的间隔设置为0.05。

本实施例中,通过采用所述文本分类请求对应的所有的文本增强策略构建一个搜索空间,确保了搜索空间中文本增强策略的完整性,提高了后续从所述搜索空间中选取的最优的文本增强策略的准确率。

选取模块202,用于采用预设的搜索策略从所述搜索空间中随机选取一个文本增强策略,作为目标文本增强策略,其中,所述预设的搜索策略中包含有一个控制器。

本实施例中,所述预设的搜索策略可以为ENAS(Efficient Neural ArchitectureSearch)搜索策略,所述ENAS搜索策略通过共享模型参数的形式高效实现神经网络模型结构的探索,具体的,所述预设的搜索策略使用一个控制器,所述控制器为RNN模型,所述RNN模型决定每个节点的计算类型和选择激活的边。

在一个可选的实施例中,所述选取模块202采用预设的搜索策略从所述搜索空间中随机选取一个文本增强策略,作为目标文本增强策略包括:

将所述多个文本增强策略输入至所述预设的搜索策略的控制器中,所述控制器从所述多个文本增强策略中随机选取任意一类超参数中的一个超参数作为所述控制器当前时间步的输入参数,将所述当前时间步的输入参数输入至所述控制器中,输出当前时间步的输出值;

所述控制器从所述多个文本增强策略中随机选取剩余的任意一类超参数中的一个超参数作为下一个时间步的输入参数,将所述下一个时间步的第一输入参数和所述当前时间步的输出值作为下一个时间步的目标输入参数,将所述下一个时间步的目标输入参数输入至所述控制器中,输出下一个时间步的输出值;

循环执行所述四类超参数的选择及输入参数的确定,直至得到每个所述超参数对应的输出参数,并将所述四类超参数对应的四个输出值确定为目标文本增强策略。

本实施例中,所述控制器的在每个时间步都有一个输入,本实施例中包含有四个超参数,每个时间步分别对应所述四个超参数中的任意一个超参数,将每个时间步的输出参数输入值控制器中,通过所述控制器的Softmax层,得到每个所述超参数对应的输出值。由于所述控制器的下一个时间步的输入参数由上一个时间步的输出值和下一个时间步的输入参数共同决定,在下一个文本处理时,上一个输出也对它有影响,提高了文本的关联性,确保得到的每个超参数的输出值的可靠性,提高了随机选取的文本增强策略准确率。

文本增强模块203,用于使用所述目标文本增强策略对文本分类请求中原始文本集中的每个文本进行文本增强,得到第一增强文本集。

本实施例中,所述文本分类请求中还包含有原始文本集,所述原始文本集中包含有多个文本。

在一个可选的实施例中,在所述文本增强模块203使用所述目标文本增强策略对文本分类请求中原始文本集中的每个文本进行文本增强,得到第一增强文本集之前,所述方法还包括:

按照预设的文本清洗策略清洗所述原始文本集中的每个文本。

本实施例中,可以预先设置文本清洗策略,所述预设的文本清洗策略可以为对时间、日期、数值、全半角等显示格式不一致、内容中有不该存在的字符及、内容与该字段应有内容不符的文本进行清洗。

本实施例中,通过对所述原始文本集中的每个文本进行清洗,减少干扰后续文本增强因素,提高了文本增强效率及准确率。

在一个可选的实施例中,所述文本增强模块203使用所述目标文本增强策略对文本分类请求中原始文本集中的每个文本进行文本增强,得到第一增强文本集包括:

识别所述目标文本增强策略中的每个超参数对应的输出值;

基于每个所述超参数对应的输出值对所述原始文本集中的每个文本进行文本增强,得到第一增强文本。

示例性地,若所述目标文本增强策略中包含的超参数:类别标签为A类,操作类型对应的输出值为:随机删除,应用操作的词的比例对应的输出值为:0.2,应用类型的概率为:1,原始文本集中的一个文本:“我是中国人”,采用所述目标文本增强策略得到第一增强文本为:“我是中国”或者“我中国人”或者“是中国人”。

示例性地,若所述目标文本增强策略中包含的超参数:类别标签为A类,操作类型对应的输出值为:随机删除,应用操作的词的比例对应的输出值为:0.4,应用类型的概率为:1,原始文本集中的一个文本:“我是中国人”,采用所述目标文本增强策略得到第一增强文本为:“我是中”或者“我中国”或者“我国人”或者“是中国”或者“是国人”或者“中国人”。

本实施例中,数据增强技术被广泛应用于有效的利用有限的标注语料提升模型的效率,并减少对标注数据量的依赖,本实施例通过采用随机选取的目标文本增强策略对原始文本集中的每个文本进行文本增强,确保了后续输入值预设的神经网络中的文本集的多样性及完整性,特别是针对小样本数据集和类别不均衡的数据集,通过文本增强策略可以增强小样本数据集的数据量及将类别不均衡的数据集增强至均衡,提高了后续采用增强后的数据集训练的模型的有效性和鲁棒性,同时,通过采用随机选取的目标文本增强策略对原始文本集中的每个文本进行文本增强,不需要进行人工标注,无需耗费大量的人力和时间,提高了文本增强的效率及准确率。

第一输入模块204,用于将所述原始文本集和所述第一增强文本集输入至预设的神经网络中进行训练,得到第一文本分类模型。

本实施例中,可以预先设置神经网络,所述预设的神经网络可以为现有的卷积神经网络或者逆图形网络等,在得到原始文本集和第一增强文本集之后,基于所述原始文本集和所述第一增强文件集训练文本分类模型。

验证模块205,用于将所述文本分类请求中的验证集输入至所述第一文本分类模型中进行验证,并计算验证通过率。

本实施例中,所述文本分类请求中还包含有验证集,在训练好第一文本分类模型之后,基于所述验证集计算所述第一文本分类模型的通过率,根据验证通过率可以确定所述第一文本分类模型是否稳定。

确定模块206,用于根据所述验证通过率确定所述文本分类请求对应的目标文本分类模型和最优文本增强策略。

本实施例中,所述目标文本分类模型指的是验证通过率对应的文本分类模型,所述最优文本增强策略指的是采用选取的文本增强策略后对文本增强后,使得训练得到的目标文本分类模型得到的验证通过率达到所述文本分类请求中的预设收敛条件,具体地,所述预设收敛条件指的是根据所述验证通过率可以确定所述控制器是否收敛,只有当所述控制器收敛时,得到的文本增强策略确定为最优文本增强策略,例如,所述预设收敛条件可以为验证通过率大于或者等于预设的验证通过率阈值,或者通过最优文本增强策略在文本分类模型上的验证通过率不再提升。

在一个可选的实施例中,所述确定模块206根据所述验证通过率确定所述文本分类请求对应的目标文本分类模型和最优文本增强策略包括:

当所述验证通过率满足所述文本分类请求中的预设收敛条件时,将所述第一文本分类模型确定为目标文本分类模型及将所述目标文本增强策略确定为最优文本增强策略;或者

当所述验证通过率不满足所述文本分类请求中的预设收敛条件时,基于所述验证通过率更新所述控制器中的模型参数,得到更新后的控制器,采用所述更新后的控制器从所述搜索空间中随机选取新的文本增加策略,作为新的目标文本增强策略,并使用所述新的目标文本增强策略对所述原始文本集进行文本增强,得到第二增强文本集,并将所述原始文本集和所述第二增强文件集输入至所述预设的神经网络中进行训练,得到第二文本分类模型,将所述文本分类请求中的验证集输入至所述第二文本分类模型中进行验证,并计算验证通过率,重复执行所述根据验证通过率更新所述控制器中的模型参数重新选取新的文本增强策略进行文本增强,得到验证通过率,直至所述验证通过率满足所述控制器对应的预设收敛条件,将所述验证通过率对应的文本分类模型确定为目标文本分类模型及将所述验证通过率对应的新的目标文本增强策略确定为最优文本增强策略。

本实施例中,所述第二增强文本集是通过更新所述控制器中的文本增强策略后采用新的文本增强策略得到的。

本实施例中,通过构建搜索空间及采用预设的搜索策略,为每个数据集定制化搜索出最优文本增强策略,提高了文本分类的准确率。

第二输入模块207,用于采用所述最优文本增强策略对所述文本分类请求中的待分类文本集进行文本增强,得到第三增强文本集,将所述第三增强文本集和所述待分类文本集输入至所述目标文本分类模型中,得到文本分类结果。

本实施例中,所述最优文本增强策略是通过构建搜索空间,采用预设的搜索策略搜索目标文本增强策略,基于所述目标文本增强策略在所述目标文本分类模型中的验证通过率,确定出最优文本增强策略,所述最优文本增强策略不是通过人工设置超参数后通过人工经验和大量的对比实验得到的,是通过采用搜索策略搜索得到的,提高了确定的最优文本增强策略的准确率和效率。

本实施例中,通过采用搜索策略确定出最优文本增强策略和目标文本分类模型,采用所述最优文本增强策略对待分类文本集进行文本增强,确保得到的第三增强文本集是最稳定的,同时将所述待分类文本集和所述第三增强文本集输入至所述目标文本分类模型中进行文本分类,提高了文本分类的准确率。

综上所述,本实施例所述的基于人工智能的文本分类装置,一方面,通过采用所述文本分类请求对应的所有的文本增强策略构建一个搜索空间,确保了搜索空间中文本增强策略的完整性,提高了后续从所述搜索空间中选取的最优的文本增强策略的准确率;另一方面,采用预设的搜索策略中的控制器从所述搜索空间中随机选取一个文本增强策略,由于所述控制器的下一个时间步的输入参数由上一个时间步的输出值和下一个时间步的输入参数共同决定,在下一个文本处理时,上一个输出也对它有影响,提高了文本的关联性,确保得到的每个超参数的输出值的可靠性,提高了随机选取的文本增强策略准确率;最后,通过采用随机选取的目标文本增强策略对原始文本集中的每个文本进行文本增强,不需要进行人工标注,无需耗费大量的人力和时间,提高了文本增强的效率及准确率。

实施例三

参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的基于人工智能的文本分类装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。

在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的基于人工智能的文本分类装置20)、程序代码等,例如,上述的各个模块。

所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到基于人工智能的文本分类的目的。

示例性的,所述程序代码可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器32执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如,所述程序代码可以被分割成解析模块201、选取模块202、文本增强模块203、第一输入模块204、验证模块205、确定模块206及第二输入模块207。

在本发明的一个实施例中,所述存储器31存储多个计算机可读指令,所述多个计算机可读指令被所述至少一个处理器32所执行以实现基于人工智能的文本分类的功能。

具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于用户需求预测产品设计参数的方法、装置及设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!