一种字段注释生成、字符串理解方法、设备及存储介质

文档序号：1875848 发布日期：2021-11-23 浏览：15次 >En<

阅读说明：本技术 一种字段注释生成、字符串理解方法、设备及存储介质 (Method, device and storage medium for generating field annotation and understanding character string ) 是由郭立帆徐阆平于 2020-05-19 设计创作，主要内容包括：本申请实施例提供一种字段注释生成、字符串理解方法、设备及存储介质。在本申请实施例中,对于缺失字段注释的字段名,可确定其中包含的英文缩写字符串,并对英文缩写字符串进行还原,以将字段名中的英文缩写还原为英文全拼,在此基础上,可对字段名进行英文翻译,以生成字段名的字段注释。据此,本申请实施例中,无需在依赖人工方式生成字段注释,可有效提高字段注释的生成效率,而且,通过对字段名中英文缩写的准确还原,可保证生成的字段注释的准确性。(The embodiment of the application provides a field annotation generation method, a character string understanding method, a device and a storage medium. In the embodiment of the application, for the field names of the missing field comments, the english abbreviation character strings contained in the field names can be determined, and the english abbreviation character strings are restored to restore the english abbreviations in the field names to english spells, on the basis of which the field names can be translated in english to generate the field comments of the field names. Therefore, in the embodiment of the application, the field annotation does not need to be generated manually, the generation efficiency of the field annotation can be effectively improved, and the accuracy of the generated field annotation can be ensured by accurately restoring the Chinese and English abbreviations of the field names.)

技术领域

本申请涉及数据处理技术领域，尤其涉及一种字段注释生成、字符串理解方法、设备及存储介质。

背景技术

随着用户数据量的不断增大，越来越多的用户发出了数据标准化的需求，期望获得高质量的数据资产。数据标准化过程中至关重要的一项处理内容是对数据库中字段名的注释补全。

目前，需要采用人工方式对数据库中字段名进行注释补全，这种方式的效率和准确性都比较低。

发明内容

本申请的多个方面提供一种字段注释生成、字符串理解方法、设备及存储介质，用于提高字段注释的生成效率和准确性。

本申请实施例提供一种字段注释生成方法，包括：

获取待处理的字段名；

确定所述字段名中包含的英文缩写字符串；

基于英文缩写与英文全拼之间的映射关系，确定所述英文缩写字符串对应的英文全拼；

基于所述英文缩写字符串对应的英文全拼，对所述字段名进行英文翻译，以生成所述字段名的字段注释。

本申请实施例还提供一种字符串理解方法，包括：

获取待理解字符串；

确定所述待理解字符串中包含的英文缩写字符串；

基于英文缩写与英文全拼之间的映射关系，确定所述英文缩写字符串对应的英文全拼；

基于所述英文缩写字符串对应的英文全拼，对所述待理解字符串进行英文翻译，以生成所述待理解字符串的理解结果。

本申请实施例还提供一种计算设备，包括存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

所述处理器与所述存储器耦合，用于执行所述一条或多条计算机指令，以用于：

获取待处理的字段名；

确定所述字段名中包含的英文缩写字符串；

基于英文缩写与英文全拼之间的映射关系，确定所述英文缩写字符串对应的英文全拼；

基于所述英文缩写字符串对应的英文全拼，对所述字段名进行英文翻译，以生成所述字段名的字段注释。

本申请实施例还提供一种计算设备，包括存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

所述处理器与所述存储器耦合，用于执行所述一条或多条计算机指令，以用于：

获取待理解字符串；

确定所述待理解字符串中包含的英文缩写字符串；

基于英文缩写与英文全拼之间的映射关系，确定所述英文缩写字符串对应的英文全拼；

基于所述英文缩写字符串对应的英文全拼，对所述待理解字符串进行英文翻译，以生成所述待理解字符串的理解结果。

本申请实施例还提供一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行前述的字段注释生成方法或前述的字符串理解方法。

在本申请实施例中，对于缺失字段注释的字段名，可确定其中包含的英文缩写字符串，并对英文缩写字符串进行还原，以将字段名中的英文缩写还原为英文全拼，在此基础上，可对字段名进行英文翻译，以生成字段名的字段注释。据此，本申请实施例中，无需在依赖人工方式生成字段注释，可有效提高字段注释的生成效率，而且，通过对字段名中英文缩写的准确还原，可保证生成的字段注释的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一示例性实施例提供的一种字段注释生成方法的流程示意图；

图2为本申请一示例性实施例提供的一种字段注释生成方法的逻辑框图；

图3为本申请另一示例性实施例提供的一种字符串理解方法的流程示意图；

图4为本申请又一示例性实施例提供的一种计算设备的结构示意图；

图5为本申请又一示例性实施例提供的另一种计算设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，需要采用人工方式对数据库中字段名进行注释补全，这种方式的效率和准确性都比较低。针对这些技术问题，本申请实施例提供一种解决方案，基本思路之一是：对于缺失字段注释的字段名，可确定其中包含的英文缩写字符串，并对英文缩写字符串进行还原，以将字段名中的英文缩写还原为英文全拼，在此基础上，可对字段名进行英文翻译，以生成字段名的字段注释。据此，本申请实施例中，无需在依赖人工方式生成字段注释，可有效提高字段注释的生成效率，而且，通过对字段名中英文缩写的准确还原，可保证生成的字段注释的准确性。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请一示例性实施例提供的一种字段注释生成方法的流程示意图。图2为本申请一示例性实施例提供的一种字段注释生成方法的逻辑框图。本实施例提供的字段注释生成方法可以由一字段注释生成装置来执行，该字段注释生成装置可以实现为软件或实现为软件和硬件的组合，该字段注释生成装置可集成设置在计算设备中。如图1和2所示，该方法包括：

步骤100、获取待处理的字段名；

步骤101、确定字段名中包含的英文缩写字符串；

步骤102、基于英文缩写与英文全拼之间的映射关系，确定英文缩写字符串对应的英文全拼；

步骤103、基于英文缩写字符串对应的英文全拼，对字段名进行英文翻译，以生成字段名的字段注释。

本实施例提供的字段注释生成方法，可应用于数据库或电子表格等其它存在字段的场景中，本实施例对应用场景不作限定。以数据库为例，在大多数情况下，数据表中的列可称为字段，每个字段包含某一专题的信息。以电子表格为例，电子表格中的一列也可作为字段。

字段对应有字段名，字段名作为字段所包含信息的名称。例如，数据库场景中，字段名可以是属性类信息的名称，如身份证、性别等等。

在实际应用中，为了适配软件代码技术等需求，字段名通常由字符组成。而且，根据不同技术人员的习惯，对字段名的编写方式可能不完全相同，这造成字段名的通读性比较低。因此，字段名通常都会配置有字段注释，用于解释字段名的含义。例如，字段名为yhsj，技术人员可为该字段名添加字段注释“用户数据”。

但是，目前看来，仍存在大量缺失字段注释的字段名。对于缺失字段注释的字段名，只能依靠技术人员人工进行理解，尤其对于未参与原始开发过程的技术人员来说，处理效率和准确性都比较低。

本实施例中，可将缺失字段注释的字段名作为待处理的字段名。正如上文提及的，本实施例中，不限定待处理的字段名的来源。

本实施例中，可确定字段名中包含的英文缩写字符串。

其中，英文缩写字符串可以是无法进行英文单词翻译的字符串。

实际应用中，分属于不同英文单字的英文缩写字符串之间通常存在分隔字符。例如，字段名CUST_NO中，通过分隔字符“_”将两个英文缩写字符串分隔开。这种情况下，认为该字段名中包含两个英文缩写字符串【CUST】和【NO】。

本实施例中，可针对字段名中的每个英文缩写字符串，基于英文缩写与英文全拼之间的映射关系，确定英文缩写字符串对应的英文全拼。

其中，不同行业领域下的英文缩写与英文全拼之间的映射关系，可能不完全相同。本实施例中，可根据字段名所属的目标行业领域，基于目标行业领域下的英文缩写与英文全拼之间的映射关系，确定英文缩写字符串对应的英文全拼。

据此，可基于英文缩写字符串对应的英文全拼，可对字段名进行英文翻译，以生成字段名对应的字段注释。

正如前文提及的，字段名中可能包含英文缩写字符串，还可能包含其它字符，例如，英文全拼字符串。本实施例中，可将字段名中的英文缩写字符串替换为英文全拼，并将英文缩写字符串对应的英文全拼与字段名中的其它字符组合后，进行英文翻译，以产生字段名的字段注释。当然，也可将英文缩写字符串对应的英文全拼直接翻译为中文词组，并将翻译结果与字段名中的其它字符的理解结果进行拼接，产生字段名的字段注释。

而对于字段名中包含的英文单词，可直接进行英文翻译，而无需在执行前述的英文缩写还原的操作。

据此，可生成字段名的字段注释。

本实施例中，对于缺失字段注释的字段名，可确定其中包含的英文缩写字符串，并对英文缩写字符串进行还原，以将字段名中的英文缩写还原为英文全拼，在此基础上，可对字段名进行英文翻译，以生成字段名的字段注释。据此，本申请实施例中，无需在依赖人工方式生成字段注释，可有效提高字段注释的生成效率，而且，通过对字段名中英文缩写的准确还原，可保证生成的字段注释的准确性。

在上述或下述实施例中，可以英文缩写字符串作为最大公因子序列，从英文单词库中，确定与最大公因子序列匹配的至少一个候选单词。

实际应用中，可收集不同行业领域下的英文全拼，也即英文单词，组成不同行业领域下的英文单词库。

基于不同行业领域下的英文单词库，本实施例中，在字段名所属的行业领域已知的情况下，可从字段名所属的目标行业领域下的英文单词库中，以英文缩写字符串作为最大公因子序列，从目标行业领域对应的英文单词库中，确定与最大公因子序列匹配的至少一个候选单词。

其中，与最大公因子序列匹配是指英文单词中存在英文缩写中包含的所有英文字母，尽管这些英文字母在英文单词中可能不是连续的，但这些英文字母在英文单词中的顺序与在英文缩写字符串中的顺序一致。

例如，英文缩写字符串为cd，对于英文单词库中的英文单词code来说，其中存在英文字母c和d，且c和d在code中的顺序和在英文缩写字符串cd中的顺序一致，因此，可确定英文单词code为英文字符串cd的候选单词。

据此，可获得英文字符串对应的候选单词集，候选单词集中包含至少一个候选单词。

针对候选单词集中的至少一个候选单词，可基于英文缩写与英文全拼之间的映射关系，计算英文缩写字符串作为至少一个候选单词的英文缩写的概率。

为此，本实施例中，可将英文缩写字符串输入英文缩写预测模型，并在英文缩写预测模型中，基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串的概率。

英文缩写预测模型可遍历候选单词集中的每个候选单词，并计算候选单词在英文缩写字符串下的条件概率，也即是候选单词缩写为英文缩写字符串的概率。

其中，在英文缩写预测模型中，可针对不同的行业领域，学习不同的英文缩写与英文全拼之间的映射关系。在此，可将目标行业领域输入英文缩写预测模型，在英文缩写预测模型中，可基于字段名所属的目标行业领域下的英文缩写与英文全拼之间的映射关系，确定至少一个候选单词缩写为英文缩写字符串的概率。

为了使英文缩写预测模型学习到不同行业领域下英文缩写与英文全拼之间的映射关系，可对英文缩写预测模型进行训练。训练过程可以是：

获取包含样本英文单词和样本英文缩写的样本数据集；

在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系；

将标注后的样本数据集输入英文缩写预测模型，以供英文缩写预测模型学习英文缩写与英文全拼之间的映射关系。

其中，可采用爬虫技术等从网络中获取训练文本，还可将英文缩写词典和英文单词词典作为训练文本，而且，可根据行业领域对训练文本进行分类，针对不同的行业领域，使用不完全相同的训练文本对英文缩写预测模型进行训练。

其中，在对样本数据集进行标注的过程中，可对样本英文缩写进行编码，以获得样本英文缩写的编码序列，编码序列用于表征样本英文缩写与其对应的样本英文单词之间的公因子；建立编码序列与样本英文单词之间的对应关系，以供英文缩写预测模型学习编码序列与英文全拼之间的映射关系。

在实际应用中，可对样本英文缩写进行01编码，获得的编码序列将为01序列。其中，编码序列中的1可表征在该序列位置上存在样本英文缩写与其对应的样本英文单词之间的公因子。例如，对于样本英文缩写cd和其对应的样本英文单词code来说，可将样本英文缩写编码为【1010】。

这样，英文缩写预测模型可从标注后的样本数据集中学习到编码序列与英文全拼之间的映射关系。

据此，英文缩写预测模型可基于编码序列与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串对应的编码序列的概率，作为至少一个候选单词缩写为英文缩写字符串的概率。

实际应用中，并无法预知一个候选单词可能缩写为哪种编码序列，为此，可穷举或根据预设规则确定一个候选单词可能缩写为的多个编码序列，并在英文缩写预测模型中，根据学习到的编码序列与英文全拼之间的映射关系，分别预测候选单词缩写为前述多个编码序列的概率。多个编码序列中包含英文缩写字符串对应的编码序列。

当然，这仅是示例性的，本实施例中，也可指定英文缩写预测模型只计算候选单词缩写为英文缩写字符串对应的编码序列的概率，而不再计算候选单词缩写为其它编码序列的概率。本实施例对此不作限定。

本实施例中，采用编码序列的方式表征英文缩写字符串，可将英文缩写的预测问题转换成为分类问题，使得预测效率更高、预测结果更合理、更准确。

实际应用中，英文缩写预测模型可采用seq2seq模型。当然，英文缩写预测模型还可采用其它类型的算法模型，本实施例并不限于此。

至此，可基于英文缩写预测模型，确定出候选单词集中的至少一个候选单词各自缩写为英文缩写字符串的概率。

在此基础上，可基于贝叶斯假设，根据英文缩写预测模型输出的至少一个候选单词缩写为英文缩写字符串的概率，计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率。

其中，基于贝叶斯假设的计算过程，可表征为计算式：

其中，P(word|abbr)表示候选单词word作为英文缩写字符串abbr的英文全拼的概率，P(abbr|word)表示候选单词word缩写为英文缩写字符串abbr的概率(来自前述的英文缩写预测模型)，P(word)表示候选单词word出现的频率，P(abbr)表示英文缩写字符串出现的频率。

据此，可计算出候选单词集中至少一个候选单词各自作为英文缩写字符串的英文全拼的概率。

在此基础上，可将概率符合预设要求的候选单词，作为英文缩写字符串对应的英文全拼。例如，将概率最大的候选单词，作为英文缩写字符串对应的英文全拼。

本实施中，可为不同行业领域构建适配的英文单词库，这使得英文缩写还原的过程拥有了更加准确和合理的还原范围，可有效提高英文缩写还原的准确性。而且，采用编码序列的方式表征英文缩写字符串，可将英文缩写的预测问题转换成为分类问题，使得预测效率更高、预测结果更合理、更准确，进而也可有效提高英文缩写还原的准确性。

在上述或下述实施例中，字段名可能包含分隔字符。

本实施例中，若字段名中包含分隔字符，可根据分隔字符，将字段名分割多个字符段；可将多个字符段中不属于英文单词的字符段，确定为英文缩写字符串。

字段名中的分割字符在多数情况下起到语义分割作用。例如，字段名CUST_NO中的分隔字符“_”起到语义分割的作用，将字段名的语义分割为客户和号码。

本实施例中，可根据分隔字符对字段名进行分割，并针对分割后获得的多个字符段，分别从生成理解结果。在此基础上，可将多个字符段各自的理解结果进行拼接，以产生字段名对应的字段注释。

另外，本实施例中，对于字段名中的分隔字符，可保留至字段名的字段注释中，当然，也可直接删除，不再出现在字段注释中。这可根据实际需求或用户指令等进行灵活设置，本实施例对此不作限定。

本实施例中，可实现对字段名的分段理解，这使得对字段名的理解更加准确，尤其是对于包含多个语义的字段名，可避免不同语义之间的相互影响，从而有效保证其包含的多个语义获得最准确的理解结果，有效提高最终生成的字段注释的准确性。

在上述或下述实施例中，基于为字段名生成的字段注释，可将字段名对应的字段注释补充至字段名所在的数据库中。

据此，可将生成的字段注释应用于数据库中，为数据库中的字段名添加字段注释。

本实施例中，还可基于字段名对应的字段注释以及字段名所在的数据库中的其它字段名对应的字段注释，构建数据库下字段名与字段注释之间的关联关系。

基于此，可以字段名与字段注释之间的关联关系作为访问数据库过程中的中间媒介，以保证访问者正确理解数据库中各字段名的含义。

实际应用中，可将字段名与字段注释之间的关联关系配置在相关的数据访问协议中，以使通信方按照相同的理解基础进行数据处理。

当然，对于字段注释的应用绝不仅限于此，本实施例中，生成的字段注释还可应用在其它处理事项中，在此不再穷举。

在上述或下述实施例中，在基于英文缩写与英文全拼之间的映射关系，确定英文缩写字符串对应的英文全拼过程中，还可利用英文缩写词典对英文缩写字符串进行识别，若确定英文缩写字符串存在于英文缩写词典中，则根据英文缩写词典，确定英文缩写字符串对应的英文全拼。而无需在执行确定候选单词等操作。

其中，英文缩写词典可以是行业领域中通用的词典，当然，也可以是经过其它官方或团体认证的通用的词典，本实施例对此不作限定。英文缩写词典中记录有英文缩写与英文全拼的对应关系。

据此，本实施例中，可预先判断英文缩写字符串是否出现在英文缩写词典中，若是，则可直接根据英文缩写词典确定英文全拼，若否，则可再根据前述实施例中提供的以英文缩写字符串作为最大公因子序列，从英文单词库中，确定与最大公因子序列匹配的至少一个候选单词以及其它后续操作，确定出英文缩写字符串的英文全拼。这可有效提高英文缩写还原的效率。

图3为本申请另一示例性实施例提供的一种字符串理解方法的流程示意图。本实施例提供的字符串理解方法可以由一字符串理解装置来执行，该字符串理解装置可以实现为软件或实现为软件和硬件的组合，该字符串理解装置可集成设置在计算设备中。如图3所示，该方法包括：

步骤300、获取待理解字符串；

步骤301、确定待理解字符串中包含的英文缩写字符串；

步骤302、基于英文缩写与英文全拼之间的映射关系，确定英文缩写字符串对应的英文全拼；

步骤303、基于英文缩写字符串对应的英文全拼，对待理解字符串进行英文翻译，以生成待理解字符串的理解结果。

本实施例提供的字符串理解方法可应用于对未知含义的字符串进行理解的场景中，例如，数据库场景、电子表格场景、聊天场景、期刊翻译或阅读场景、搜索引擎场景、电商场景等等，本实施例对应用场景不作限定。

对于不同的应用场景，待理解字符串的类型可能不完全相同。待理解字符串可以包括数据库中的字段名、聊天内容中的字符串、专业术语、搜索关键词中的一种或多种。例如，在数据库场景中，待理解字符串可以是字段名，在电子表格场景中，字符串可以是任意单元格中的内容。在其它场景中，待理解字符串还可以是文本中的一串字符，或者是代码文件中的一句代码等等。

据此，本实施例中，待理解字符串可以是任意含义未知的字符串，本实施例对待理解字符串的来源、规格、类型等不作限定。

本实施例提供的字符串理解方法，可实现对含义未知的字符串的还原。例如，在IM工具里面，打字聊天的时候，对聊天内容中缩写字符串的还原；学术期刊或者专业期刊，例如医院期刊里面专业术语的缩写的还原；搜索场景下关键词缩写的还原，如电商场景下的商品关键词，或搜索引擎下的搜索关键词等。

本实施例与图1所示实施例的不同在于，本实施例中的待理解字符串不局限于前述实施例中的字段名。

基于相似的发明构思，本实施例中对于技术细节可参考前述关于最终理解结果生成方法的各实施例中的相关描述，为了节省篇幅，将不再展开详述技术细节，但这不应造成对本申请保护范围的损失。

以下仅示例性地描述几个代表性的实施例。

在一可选实施例中，步骤基于英文缩写与英文全拼之间的映射关系，确定英文缩写字符串对应的英文全拼，包括：

以英文缩写字符串作为最大公因子序列，从英文单词库中，确定与最大公因子序列匹配的至少一个候选单词；

基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率；

将概率符合预设要求的候选单词，作为英文缩写字符串对应的英文全拼。

在一可选实施例中，步骤基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率，包括：

将英文缩写字符串输入英文缩写预测模型；并在英文缩写预测模型中，基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串的概率；

基于贝叶斯假设，根据英文缩写预测模型输出的至少一个候选单词缩写为英文缩写字符串的概率，计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率。

在一可选实施例中，英文缩写预测模型采用seq2seq模型。

在一可选实施例中，步骤将英文缩写字符串输入英文缩写预测模型之前，还包括：

获取包含样本英文单词和样本英文缩写的样本数据集；

在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系；

将标注后的样本数据集输入英文缩写预测模型，以供英文缩写预测模型学习英文缩写与英文全拼之间的映射关系。

在一可选实施例中，步骤在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系，包括：

对样本英文缩写进行编码，以获得样本英文缩写的编码序列，编码序列用于表征样本英文缩写与其对应的样本英文单词之间的公因子；

建立编码序列与样本英文单词之间的对应关系，以供英文缩写预测模型学习编码序列与英文全拼之间的映射关系。

在一可选实施例中，步骤基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串的概率，包括：

基于编码序列与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串对应的编码序列的概率，作为至少一个候选单词缩写为英文缩写字符串的概率。

在一可选实施例中，步骤以英文缩写字符串作为最大公因子序列，从英文单词库中，确定与最大公因子序列匹配的至少一个候选单词，包括：

确定待处理字符串所处的目标行业领域；

以英文缩写字符串作为最大公因子序列，从目标行业领域对应的英文单词库中，确定与最大公因子序列匹配的至少一个候选单词。

在一可选实施例中，步骤将英文缩写字符串输入英文缩写预测模型，包括：

确定待处理字符串所处的目标行业领域；

英文缩写字符串以及目标行业领域输入英文缩写预测模型；

基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串的概率，包括：

基于目标行业领域下的英文缩写与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串的概率。

在一可选实施例中，步骤确定待处理字符串中包含的英文缩写字符串，包括：

若待处理字符串中包含分隔字符，根据分隔字符，将待处理字符串分割为多个字符段；

确定多个字符段中不属于英文单词的字符段作为英文缩写字符串。

在一可选实施例中，该方法还包括：

将待处理字符串对应的字段注释补充至待处理字符串所在的数据库中；或者

基于待处理字符串对应的字段注释以及待处理字符串所在的数据库中的其它待处理字符串对应的字段注释，构建数据库下待处理字符串与字段注释之间的关联关系。

在一可选实施例中，步骤以英文缩写字符串作为最大公因子序列，从英文单词库中，确定与最大公因子序列匹配的至少一个候选单词之前，还包括：

利用英文缩写词典对英文缩写字符串进行识别，若确定英文缩写字符串存在于英文缩写词典中，则根据英文缩写词典，确定英文缩写字符串对应的英文全拼；

若确定英文缩写字符串未存在于英文缩写词典中，则执行以英文缩写字符串作为最大公因子序列，从英文单词库中，确定与最大公因子序列匹配的至少一个候选单词的操作。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤100至步骤102的执行主体可以为设备A；又比如，步骤100和101的执行主体可以为设备A，步骤102的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如100、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

图4为本申请又一示例性实施例提供的一种计算设备的结构示意图。如图4所示，该计算设备包括：存储器40和处理器41。

处理器41，与存储器40耦合，用于执行存储器40中的计算机程序，以用于：

获取待处理的字段名；

确定字段名中包含的英文缩写字符串；

基于英文缩写与英文全拼之间的映射关系，确定英文缩写字符串对应的英文全拼；

基于英文缩写字符串对应的英文全拼，对字段名进行英文翻译，以生成字段名的字段注释。

在一可选实施例中，处理器在基于英文缩写与英文全拼之间的映射关系，确定英文缩写字符串对应的英文全拼时，用于：

以英文缩写字符串作为最大公因子序列，从英文单词库中，确定与最大公因子序列匹配的至少一个候选单词；

基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率；

将概率符合预设要求的候选单词，作为英文缩写字符串对应的英文全拼。

在一可选实施例中，处理器在基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率时，用于：

在一可选实施例中，英文缩写预测模型采用seq2seq模型。

在一可选实施例中，处理器在将英文缩写字符串输入英文缩写预测模型之前，还用于：

获取包含样本英文单词和样本英文缩写的样本数据集；

在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系；

将标注后的样本数据集输入英文缩写预测模型，以供英文缩写预测模型学习英文缩写与英文全拼之间的映射关系。

在一可选实施例中，处理器在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系时，用于：

对样本英文缩写进行编码，以获得样本英文缩写的编码序列，编码序列用于表征样本英文缩写与其对应的样本英文单词之间的公因子；

建立编码序列与样本英文单词之间的对应关系，以供英文缩写预测模型学习编码序列与英文全拼之间的映射关系。

在一可选实施例中，处理器在基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串的概率时，用于：

在一可选实施例中，处理器在以英文缩写字符串作为最大公因子序列，从英文单词库中，确定与最大公因子序列匹配的至少一个候选单词时，用于：

确定字段名所处的目标行业领域；

以英文缩写字符串作为最大公因子序列，从目标行业领域对应的英文单词库中，确定与最大公因子序列匹配的至少一个候选单词。

在一可选实施例中，处理器在将英文缩写字符串输入英文缩写预测模型时，用于：

确定字段名所处的目标行业领域；

英文缩写字符串以及目标行业领域输入英文缩写预测模型；

基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串的概率时，用于：

基于目标行业领域下的英文缩写与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串的概率。

在一可选实施例中，处理器在确定字段名中包含的英文缩写字符串时，用于：

若字段名中包含分隔字符，根据分隔字符，将字段名分割为多个字符段；

确定多个字符段中不属于英文单词的字符段作为英文缩写字符串。

在一可选实施例中，处理器还用于：

将字段名对应的字段注释补充至字段名所在的数据库中；或者

基于字段名对应的字段注释以及字段名所在的数据库中的其它字段名对应的字段注释，构建数据库下字段名与字段注释之间的关联关系。

在一可选实施例中，处理器在以英文缩写字符串作为最大公因子序列，从英文单词库中，确定与最大公因子序列匹配的至少一个候选单词之前，还用于：

值得说明的是，上述关于计算设备的各实施例中的技术细节，可参考前述字段注释生成方法的各实施例中的相关描述，为节省篇幅，在此不再赘述，但这不应造成本申请保护范围的损失。

进一步，如图4所示，该计算设备还包括：通信组件42、电源组件43等其它组件。图4中仅示意性给出部分组件，并不意味着计算设备只包括图4所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。

图5为本申请又一实施例提供的另一种计算设备的结构示意图。如图5所示，该计算设备包括：存储器50和处理器51。

处理器51，与存储器50耦合，用于执行存储器50中的计算机程序，以用于：

获取待理解字符串；

确定待理解字符串中包含的英文缩写字符串；

基于英文缩写与英文全拼之间的映射关系，确定英文缩写字符串对应的英文全拼；

基于英文缩写字符串对应的英文全拼，对待理解字符串进行英文翻译，以生成待理解字符串的理解结果。

在一可选实施例中，处理器51在基于英文缩写与英文全拼之间的映射关系，确定英文缩写字符串对应的英文全拼时，用于：

以英文缩写字符串作为最大公因子序列，从英文单词库中，确定与最大公因子序列匹配的至少一个候选单词；

基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率；

将概率符合预设要求的候选单词，作为英文缩写字符串对应的英文全拼。

在一可选实施例中，处理器51在基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率时，用于：

在一可选实施例中，英文缩写预测模型采用seq2seq模型。

在一可选实施例中，处理器51在将英文缩写字符串输入英文缩写预测模型之前，还用于：

获取包含样本英文单词和样本英文缩写的样本数据集；

在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系；

将标注后的样本数据集输入英文缩写预测模型，以供英文缩写预测模型学习英文缩写与英文全拼之间的映射关系。

在一可选实施例中，处理器51在在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系时，用于：

对样本英文缩写进行编码，以获得样本英文缩写的编码序列，编码序列用于表征样本英文缩写与其对应的样本英文单词之间的公因子；

建立编码序列与样本英文单词之间的对应关系，以供英文缩写预测模型学习编码序列与英文全拼之间的映射关系。

在一可选实施例中，处理器51在基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串的概率时，用于：

在一可选实施例中，处理器51在以英文缩写字符串作为最大公因子序列，从英文单词库中，确定与最大公因子序列匹配的至少一个候选单词时，用于：

确定待处理字符串所处的目标行业领域；

以英文缩写字符串作为最大公因子序列，从目标行业领域对应的英文单词库中，确定与最大公因子序列匹配的至少一个候选单词。

在一可选实施例中，处理器51在将英文缩写字符串输入英文缩写预测模型时，用于：

确定待处理字符串所处的目标行业领域；

英文缩写字符串以及目标行业领域输入英文缩写预测模型；

基于英文缩写与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串的概率时，用于：

基于目标行业领域下的英文缩写与英文全拼之间的映射关系，计算至少一个候选单词缩写为英文缩写字符串的概率。

在一可选实施例中，处理器51在确定待处理字符串中包含的英文缩写字符串时，用于：

若待处理字符串中包含分隔字符，根据分隔字符，将待处理字符串分割为多个字符段；

确定多个字符段中不属于英文单词的字符段作为英文缩写字符串。

在一可选实施例中，该方法还用于：

将待处理字符串对应的字段注释补充至待处理字符串所在的数据库中；或者

在一可选实施例中，处理器51在以英文缩写字符串作为最大公因子序列，从英文单词库中，确定与最大公因子序列匹配的至少一个候选单词之前，还用于：

值得说明的是，上述关于计算设备的各实施例中的技术细节，可参考前述字符串理解方法的各实施例中的相关描述，为节省篇幅，在此不再赘述，但这不应造成本申请保护范围的损失。

进一步，如图5所示，该计算设备还包括：通信组件52、电源组件53等其它组件。图5中仅示意性给出部分组件，并不意味着计算设备只包括图5所示组件。

其中，图4和图5中的存储器，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

其中，图4和图5中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

其中，图4和图5中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

22页详细技术资料下载

一种字段注释生成、字符串理解方法、设备及存储介质

相关技术

网友询问留言