一种字段注释生成、字符串理解方法、设备及存储介质

文档序号:1875847 发布日期:2021-11-23 浏览:26次 >En<

阅读说明:本技术 一种字段注释生成、字符串理解方法、设备及存储介质 (Method, device and storage medium for generating field annotation and understanding character string ) 是由 郭立帆 徐阆平 于 2020-05-19 设计创作,主要内容包括:本申请实施例提供一种字段注释生成、字符串理解方法、设备及存储介质。在本申请实施例中,对于缺失字段注释的字段名,可对字段名进行拼音分词,以获得字段名对应的拼音序列;通过对拼音序列的理解,可生成拼音序列对应的中文序列,进而根据中文序列生成字段名对应的字段注释。据此,本申请实施例中,字段注释的补充工作不再依赖于人工方式,这可有效提高字段注释的生成效率,而且,通过对字段名的合理分词及准确理解,可保证字段注释的准确性。(The embodiment of the application provides a field annotation generation method, a character string understanding method, a device and a storage medium. In the embodiment of the application, for the field names with missing field comments, pinyin word segmentation can be carried out on the field names so as to obtain pinyin sequences corresponding to the field names; by understanding the pinyin sequence, a Chinese sequence corresponding to the pinyin sequence can be generated, and further, a field annotation corresponding to the field name is generated according to the Chinese sequence. Therefore, in the embodiment of the application, the field annotation supplementing work does not depend on a manual mode any more, the generation efficiency of the field annotation can be effectively improved, and the accuracy of the field annotation can be ensured through reasonable word segmentation and accurate understanding of the field name.)

一种字段注释生成、字符串理解方法、设备及存储介质

技术领域

本申请涉及数据处理技术领域,尤其涉及一种字段注释生成、字符串理解方法、设备及存储介质。

背景技术

随着用户数据量的不断增大,越来越多的用户发出了数据标准化的需求,期望获得高质量的数据资产。数据标准化过程中至关重要的一项处理内容是对数据库中字段名的注释补全。

目前,需要采用人工方式对数据库中字段名进行注释补全,这种方式的效率和准确性都比较低。

发明内容

本申请的多个方面提供一种字段注释生成、字符串理解方法、设备及存储介质,用于提高字段注释的生成效率和准确性。

本申请实施例提供一种字段注释生成方法,包括:

获取待处理的字段名;

对所述字段名进行拼音分词,以获得拼音序列;

基于拼音全拼和/或拼音简写与中文之间的映射关系,确定所述拼音序列对应的中文序列;

根据所述中文序列,生成所述字段名对应的字段注释。

本申请实施例还提供一种字符串理解方法,包括:

获取待理解字符串;

对所述待理解字符串进行拼音分词,以获得拼音序列;

基于拼音全拼和/或拼音简写与中文之间的映射关系,确定所述拼音序列对应的中文序列;

根据所述中文序列,生成所述待理解字符串对应的理解结果。

本申请实施例还提供一种计算设备,包括存储器和处理器;

所述存储器用于存储一条或多条计算机指令;

所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:

获取待处理的字段名;

对所述字段名进行拼音分词,以获得拼音序列;

基于拼音全拼和/或拼音简写与中文之间的映射关系,确定所述拼音序列对应的中文序列;

根据所述中文序列,生成所述字段名对应的字段注释。

本申请实施例还提供一种计算设备,包括存储器和处理器;

所述存储器用于存储一条或多条计算机指令;

所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:

获取待理解字符串;

对所述待理解字符串进行拼音分词,以获得拼音序列;

基于拼音全拼和/或拼音简写与中文之间的映射关系,确定所述拼音序列对应的中文序列;

根据所述中文序列,生成所述待理解字符串对应的理解结果。

本申请实施例还提供一种存储计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行前述的字段注释生成方法或前述的字符串理解方法。

在本申请实施例中,对于缺失字段注释的字段名,可对字段名进行拼音分词,以获得字段名对应的拼音序列;通过对拼音序列的理解,可生成拼音序列对应的中文序列,进而根据中文序列生成字段名对应的字段注释。据此,本申请实施例中,字段注释的补充工作不再依赖于人工方式,这可有效提高字段注释的生成效率,而且,通过对字段名的合理分词及准确理解,可保证字段注释的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请一示例性实施例提供的一种字段注释生成方法的流程示意图;

图2为本申请一示例性实施例提供的一种字段注释生成方法的逻辑框图;

图3为本申请另一示例性实施例提供的一种字符串理解方法的流程示意图;

图4为本申请又一示例性实施例提供的一种计算设备的结构示意图;

图5为本申请又一示例性实施例提供的另一种计算设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

目前,需要采用人工方式对数据库中字段名进行注释补全,这种方式的效率和准确性都比较低。针对这些技术问题,本申请实施例提供一种解决方案,基本思路之一是:对于缺失字段注释的字段名,可对字段名进行拼音分词,以获得字段名对应的拼音序列;通过对拼音序列的理解,可生成拼音序列对应的中文序列,进而根据中文序列生成字段名对应的字段注释。据此,本申请实施例中,字段注释的补充工作不再依赖于人工方式,这可有效提高字段注释的生成效率,而且,通过对字段名的合理分词及准确理解,可保证字段注释的准确性。

以下结合附图,详细说明本申请各实施例提供的技术方案。

图1为本申请一示例性实施例提供的一种字段注释生成方法的流程示意图。图2为本申请一示例性实施例提供的一种字段注释生成方法的逻辑框图。本实施例提供的字段注释生成方法可以由一字段注释生成装置来执行,该字段注释生成装置可以实现为软件或实现为软件和硬件的组合,该字段注释生成装置可集成设置在计算设备中。如图1和图2所示,该方法包括:

步骤100、获取待处理的字段名;

步骤101、对所述字段名进行拼音分词,以获得拼音序列;

步骤102、基于拼音全拼和/或拼音简写与中文之间的映射关系,确定所述拼音序列对应的中文序列;

步骤103、根据所述中文序列,生成所述字段名对应的字段注释。

本实施例提供的字段注释生成方法,可应用于数据库或电子表格等其它存在字段的场景中,本实施例对应用场景不作限定。以数据库为例,在大多数情况下,数据表中的列可称为字段,每个字段包含某一专题的信息。以电子表格为例,电子表格中的一列也可作为字段。

字段对应有字段名,字段名作为字段所包含信息的名称。例如,数据库场景中,字段名可以是属性类信息的名称,如身份证、性别等等。

在实际应用中,为了适配软件代码技术等需求,字段名通常由字符组成。而且,根据不同技术人员的习惯,对字段名的编写方式可能不完全相同,这造成字段名的通读性比较低。因此,字段名通常都会配置有字段注释,用于解释字段名的含义。例如,字段名为yhsj,技术人员可为该字段名添加字段注释“用户数据”。

但是,目前看来,仍存在大量缺失字段注释的字段名。对于缺失字段注释的字段名,只能依靠技术人员人工进行理解,尤其对于未参与原始开发过程的技术人员来说,处理效率和准确性都比较低。

本实施例中,可将缺失字段注释的字段名作为待处理的字段名。正如上文提及的,本实施例中,不限定待处理的字段名的来源。

本实施例中,可对字段名进行拼音分词,以获得拼音序列。

其中,拼音分词是指将字段名分割为具有拼音意义的字符组。本实施例中,拼音序列中可包含至少一个字符组。优选地,拼音分词可将字段名分割为具有拼音意义的最小单元,最小单元作为字符组。这种情况下,单个字符组中包含拼音全拼或拼音简写。

对于一个字段名来说,其可能完全是拼音全拼、完全是拼音简写或者是拼音全拼和简写的混合。本实施例中,在字段名中包含拼音简写的情况下,拼音序列中可能存在包含单字符(也即拼音简写)的字符组;而在字段名中包含拼音全拼的情况下,拼音序列中可能包含一个汉字对应的拼音全拼的字符组。

另外,拼音分词保持字段名中各字符原有的顺序,在这种顺序的基础上,经过拼音分词,可生成字段名对应的拼音序列。

例如,字段名为wm,经过拼音分词后可获得拼音序列【w,m】;字段名为jiaotong,经过拼音分词后可获得拼音序列【jiao,tong】;字段名为ddan,经过拼音分词后可获得拼音序列【d,dan】。

基于对字段名进行拼音分词获得的拼写序列,本实施例中,可根据拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列。

应当理解的是,本实施例中,可同时预置拼音全拼与中文之间的映射关系,以及拼音简写与中文之间的映射关系。而在确定拼音序列对应的中文序列的过程中,可根据拼音序列中实际包含的内容灵活确定所需要依据的映射关系。

例如,若拼音序列中只包含拼音全拼,则可只启用拼音全拼与中文之间的映射关系;若拼音序列中只包含拼音简写,则可只启用拼音简写与中文之间的映射关系;若拼音序列中同时包含拼音全拼和拼音简写,则可同时启用拼音全拼与中文之间的映射关系和拼音简写与中文之间的映射关系。

其中,不同行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,可能不完全相同。本实施例中,可根据字段名所属的目标行业领域,基于目标行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,确定字段名的拼音序列对应的中文序列。

在此基础上,可根据中文序列,生成字段名对应的字段注释。通常是将中文序列中的中文单字进行拼接,可生成字段名对应的字段注释。

本实施例中,可从将字段名分割成有拼音意义的最小单元,以产生字段的的拼音序列,并对最小单元进行理解,确定最小单元对应的中文单字,进而产生拼音序列对应的中文序列,并可根据中文序列,生成字段名对应的字段注释。使得对字段名的理解更加准确。

在上述或下述实施例中,为了实现对字段名的拼音分词,可将字段名输入拼音分词模型;在拼音分词模型中,识别字段名中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符,分别作为字符组,以生成字段名对应的拼音序列。

在拼音分词模型中,可对字段名进行拼音识别,从而确定出字段名中包含的拼音全拼以及拼音简写。例如,可将不属于拼音全拼的单字符确定为拼音简写。

其中,拼音全拼特征可以是指一串连续字符可构成拼音全拼的概率要求。符合拼音全拼特征可以是指一串连续字符符合可构成拼音全拼的概率要求。

本实施例中,为了确定出符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符,可针对字段名中的每个字符,根据字符的上下文及字符本身,确定字符符合拼音全拼下各拼写位置的状态特征的概率。其中,各拼音全拼下各拼写位置的状态特征即可作为前述的拼音全拼特征。当然,本实施例中,拼音全拼特征并不限于此,还可从其它角度表征拼音全拼特征。

对于一个拼音全拼来说,其包含多个拼写位置,拼写位置可以是开始位置、中间位置或结束位置等。例如,拼音jiao,字符j处于开始位置、字符i和a处于中间位置,而o处于结束位置。

本实施例中,可确定字段名中各字符符合拼音全拼下各拼写位置的状态特征的概率。该概率受到字符的上下文以及字符本身的影响。

若字符符合拼音全拼下任意拼写位置的状态特征的概率满足预设条件,确定该字符符合拼音全拼特征。该字符将被分割至一拼音全拼对应的字符组中。

若字符符合拼音全拼下各拼写位置的状态特征的概率均不满足预设条件,确定字符为不符合拼音全拼特征的单字符。该字符将单独构成一个字符组。

为了使拼音分词模型学习到拼音全拼特征,本实施例中,可利用训练文本对拼音分词模型进行训练。以拼音全拼特征为各拼写位置的状态特征为例,在模型训练过程中:

可获取训练文本,并将训练文本转换为拼音全拼,以获得训练序列;为训练序列中的字符标注所属的拼写位置;将标注后的训练序列输入拼音分词模型,以供拼音分词模型学习拼音全拼下各拼写位置的状态特征,作为拼音全拼特征。

其中,可通过爬虫技术等方式获取网络中的文本。另外,获取的训练文本可按照行业领域进行分类,并可针对不同的行业领域分别训练拼音分词模型的参数,这样,不同行业领域下,拼音分词模型将学习到不同的拼音全拼特征。

实际应用中,拼音分词模型可采用HMM模型。基于HMM模型,可将标注后的训练序列输入HMM模型,以供HMM模型学习状态转移矩阵等表征拼音全拼特征的模型参数。

在对字段名进行拼音分词时,在HMM模型中,可根据某一字符以及该字符的上一字符的隐藏状态,计算该字符符合各拼写位置的状态特征的概率,也即是,根据一字符的上下文以及该字符本身,计算该字符处于拼音全拼的开始位置、中间位置和/或结束位置的概率。

例如,若该字符处于拼音全拼的开始位置的概率高于预设概率阈值,则可确定该字符为拼音全拼中开始位置上的字符。并继续对其下一字符进行识别,通常,其下一字符符合中间位置或结束位置的状态特征的概率会比较高,可根据实际情况确定出其下一字符的拼写位置。

又例如,若该字符处于拼音全拼的所以拼写位置的概率均低于预设概率阈值,则可确定该字符为拼音简写,也即不属于任何拼音全拼。

正如上文提及的,拼音全拼中各拼写位置的状态特征只是拼音全拼特征的一种示例性实现形式,本实施例中,还可从其它角度表征拼音全拼特征,针对不同的拼音全拼特征,可对训练文本进行不同角度的标注,以便拼音分词模型从训练文本中学习到拼音全拼特征。

本实施例中,基于拼音分词模型,可学习到拼音全拼特征,并可基于拼音全拼特征区分出字段名中包含的拼音全拼及拼音简写,从而可将字段名分割为具有拼音意义的最小单元,这保证了拼音分词的准确性和合理性,进而使得后续拼音理解阶段的理解结果更加准确。

在上述或下述实施例中,拼音序列中包含至少一个字符组。为了确定出拼音序列对应的中文序列,本实施例中,可将拼音序列输入拼音理解模型,在拼音理解模型中,基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文;根据至少一个字符组各自对应的中文,组成中文序列。

其中,拼音理解模型中,可针对不同的行业领域,学习不同的拼音全拼和/或拼音简写与中文之间的映射关系。在此,可将目标行业领域输入拼音理解模型,在拼音理解模型中,可基于字段名所述的目标行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文。

为了使拼音理解模型学习到不同行业领域下拼音全拼和/或拼音简写与中文之间的映射关系,可对拼音理解模型进行训练。训练过程可以是:

获取训练文本,并将训练文本分割为单字序列;

将单字序列转换为拼音全拼序列以及拼音缩写序列;

以拼音全拼序列以及拼音缩写序列作为输入,以训练文本作为输出,训练拼音理解模型,以使拼音理解模型学习拼音全拼和拼音简写与中文之间的映射关系。

其中,可采用爬虫技术等从网络中获取训练文本,而且,可根据行业领域对训练文本进行分类,针对不同的行业领域,使用不完全相同的训练文本对拼音理解模型进行训练。

本实施例中,对训练文本可进行了分割,将训练文本分割为单字序列,这保证了拼音理解模型可学习到拼音全拼及拼音简写与中文单字之间的映射关系,进而可保证在使用拼音理解模型对字段名进行理解的过程中,可确定出字段名的拼音序列中每个字符组对应的中文,其中,每个字符组对应一个中文单字。

实际应用中,拼音理解模型可采用seq2seq模型。当然,拼音理解模型还可采用其它类型的算法模型,本实施例并不限于此。

本实施例中,基于拼音理解模型,可同步学习到拼音全拼及拼音简写与中文单字之间的映射关系,使得拼音理解模型可处理采用完全的拼音全拼、完全的拼音简写或者拼音全拼与简写的混写的字段名。而且,由于在拼音理解模型的训练过程中使用的是已经分割为单字的训练文本,可保证拼音理解模型对拼音序列的适配性,进而提高拼音理解的准确性。

在上述或下述实施例中,字段名可能包含分隔字符。

本实施例中,若字段名中包含分隔字符,可根据分隔字符,将字段名分割多个字符段;针对多个字符段,分别执行前述的拼音分词及拼音理解操作,获得多个字符段各自的中文序列。

字段名中的分割字符在多数情况下起到语义分割作用。例如,字段名jggj/dqdm中的分隔字符“_”起到语义分割的作用,将字段名的语义分割为籍贯国家和地区代码。

本实施例中,可根据分隔字符对字段名进行分割,并针对分割后获得的多个字符段,分别从生成理解结果。在此基础上,可将多个字符段各自的中文序列进行拼接,以产生字段名对应的字段注释。

另外,本实施例中,对于字段名中的分隔字符,可保留至字段名的字段注释中,当然,也可直接删除,不再出现在字段注释中。这可根据实际需求或用户指令等进行灵活设置,本实施例对此不作限定。

本实施例中,可实现对字段名的分段理解,这使得对字段名的理解更加准确,尤其是对于包含多个语义的字段名,可避免不同语义之间的相互影响,从而有效保证其包含的多个语义获得最准确的理解结果,有效提高最终生成的字段注释的准确性。

在上述或下述实施例中,基于为字段名生成的字段注释,可将字段名对应的字段注释补充至字段名所在的数据库中。

据此,可将生成的字段注释应用于数据库中,为数据库中的字段名添加字段注释。

本实施例中,还可基于字段名对应的字段注释以及字段名所在的数据库中的其它字段名对应的字段注释,构建数据库下字段名与字段注释之间的关联关系。

基于此,可以字段名与字段注释之间的关联关系作为访问数据库过程中的中间媒介,以保证访问者正确理解数据库中各字段名的含义。

实际应用中,可将字段名与字段注释之间的关联关系配置在相关的数据访问协议中,以使通信方按照相同的理解基础进行数据处理。

当然,对于字段注释的应用绝不仅限于此,本实施例中,生成的字段注释还可应用在其它处理事项中,在此不再穷举。

图3为本申请另一示例性实施例提供的一种字符串理解方法的流程示意图。本实施例提供的字符串理解方法可以由一字符串理解装置来执行,该字符串理解装置可以实现为软件或实现为软件和硬件的组合,该字符串理解装置可集成设置在计算设备中。如图3所示,该方法包括:

步骤300、获取待理解字符串;

步骤301、对所述待理解字符串进行拼音分词,以获得拼音序列;

步骤302、基于拼音全拼和/或拼音简写与中文之间的映射关系,确定所述拼音序列对应的中文序列;

步骤303、根据所述中文序列,生成所述待理解字符串对应的理解结果。

本实施例提供的字符串理解方法可应用于对未知含义的字符串进行理解的场景中,例如,数据库场景、电子表格场景、聊天场景、期刊翻译或阅读场景、搜索引擎场景、电商场景等等,本实施例对应用场景不作限定。

对于不同的应用场景,待理解字符串的类型可能不完全相同。待理解字符串可以包括数据库中的字段名、聊天内容中的字符串、专业术语、搜索关键词中的一种或多种。例如,在数据库场景中,待理解字符串可以是字段名,在电子表格场景中,字符串可以是任意单元格中的内容。在其它场景中,待理解字符串还可以是文本中的一串字符,或者是代码文件中的一句代码等等。

据此,本实施例中,待理解字符串可以是任意含义未知的字符串,本实施例对待理解字符串的来源、规格、类型等不作限定。

本实施例提供的字符串理解方法,可实现对含义未知的字符串的还原。例如,在IM工具里面,打字聊天的时候,对聊天内容中缩写字符串的还原;学术期刊或者专业期刊,例如医院期刊里面专业术语的缩写的还原;搜索场景下关键词缩写的还原,如电商场景下的商品关键词,或搜索引擎下的搜索关键词等。

本实施例与图1所示实施例的不同在于,本实施例中的待理解字符串不局限于前述实施例中的字段名。

基于相似的发明构思,本实施例中对于技术细节可参考前述关于最终理解结果生成方法的各实施例中的相关描述,为了节省篇幅,将不再展开详述技术细节,但这不应造成对本申请保护范围的损失。

以下仅示例性地描述几个代表性的实施例。

在一可选实施例中,拼音序列中包含至少一个字符组,字符组中包含拼音全拼或拼音简写。

在一可选实施例中,步骤对待理解字符串进行拼音分词,以获得拼音序列,包括:

将待理解字符串输入拼音分词模型;

在拼音分词模型中,识别待理解字符串中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符,分别作为字符组,以生成待理解字符串对应的拼音序列。

在一可选实施例中,步骤识别待理解字符串中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符,包括:

针对待理解字符串中的每个字符,根据字符的上下文及字符本身,确定字符符合拼音全拼下各拼写位置的状态特征的概率;

若字符符合拼音全拼下任意拼写位置的状态特征的概率满足预设条件,确定字符符合拼音全拼特征;

若字符符合拼音全拼下各拼写位置的状态特征的概率均不满足预设条件,确定字符为不符合拼音全拼特征的单字符。

在一可选实施例中,步骤在将待理解字符串输入拼音分词模型之前,还包括:

获取训练文本,并将训练文本转换为拼音全拼,以获得训练序列;

为训练序列中的字符标注所属的拼写位置;

将标注后的训练序列输入拼音分词模型,以供拼音分词模型学习拼音全拼下各拼写位置的状态特征,作为拼音全拼特征。

在一可选实施例中,拼音分词模型采用隐马尔可夫HMM模型。

在一可选实施例中,步骤基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列,包括:

将拼音序列输入拼音理解模型;

在拼音理解模型中,基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文;根据至少一个字符组各自对应的中文,组成中文序列。

在一可选实施例中,步骤将拼音序列输入拼音理解模型,包括:

确定待理解字符串所处的目标行业领域;

将拼音序列以及目标行业领域输入拼音理解模型;

基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文,包括:

基于目标行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文。

在一可选实施例中,步骤在将拼音序列输入拼音理解模型之前,还包括:

获取训练文本,并将训练文本分割为单字序列;

将单字序列转换为拼音全拼序列以及拼音缩写序列;

以拼音全拼序列以及拼音缩写序列作为输入,以训练文本作为输出,训练拼音理解模型,以使拼音理解模型学习拼音全拼和拼音简写与中文之间的映射关系。

在一可选实施例中,拼音理解模型采用序列到序列seq2seq模型。

在一可选实施例中,该方法还包括:

将待理解字符串对应的理解结果补充至待理解字符串所在的数据库中;或者

基于待理解字符串对应的理解结果以及待理解字符串所在的数据库中的其它待理解字符串对应的理解结果,构建数据库下待理解字符串与理解结果之间的关联关系。

在一可选实施例中,步骤在对待理解字符串进行拼音分词,以获得拼音序列之前,还包括:

若待理解字符串中包含分隔字符,可根据分隔字符,将待理解字符串分割多个字符段;

针对多个字符段,分别执行对待理解字符串进行拼音分词,以获得拼音序列的操作和基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列的操作,以获得多个字符段各自的中文序列;

根据中文序列,生成待理解字符串对应的字段注释,包括:

对多个字符段各自的中文序列进行拼接,以生成待理解字符串对应的字段注释。

需要说明的是,上述实施例所提供字符串理解方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤100至步骤102的执行主体可以为设备A;又比如,步骤100和101的执行主体可以为设备A,步骤102的执行主体可以为设备B;等等。

另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如100、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。

图4为本申请又一示例性实施例提供的一种计算设备的结构示意图。如图4所示,该计算设备包括:存储器40和处理器41。

处理器41,与存储器40耦合,用于执行存储器40中的计算机程序,以用于:

获取待处理的字段名;

对字段名进行拼音分词,以获得拼音序列;

基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列;

根据中文序列,生成字段名对应的字段注释。

在一可选实施例中,拼音序列中包含至少一个字符组,字符组中包含拼音全拼或拼音简写。

在一可选实施例中,处理器41在对字段名进行拼音分词,以获得拼音序列时,用于:

将字段名输入拼音分词模型;

在拼音分词模型中,识别字段名中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符,分别作为字符组,以生成字段名对应的拼音序列。

在一可选实施例中,处理器41在识别字段名中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符时,用于:

针对字段名中的每个字符,根据字符的上下文及字符本身,确定字符符合拼音全拼下各拼写位置的状态特征的概率;

若字符符合拼音全拼下任意拼写位置的状态特征的概率满足预设条件,确定字符符合拼音全拼特征;

若字符符合拼音全拼下各拼写位置的状态特征的概率均不满足预设条件,确定字符为不符合拼音全拼特征的单字符。

在一可选实施例中,处理器41在将字段名输入拼音分词模型之前,还用于:

获取训练文本,并将训练文本转换为拼音全拼,以获得训练序列;

为训练序列中的字符标注所属的拼写位置;

将标注后的训练序列输入拼音分词模型,以供拼音分词模型学习拼音全拼下各拼写位置的状态特征,作为拼音全拼特征。

在一可选实施例中,拼音分词模型采用隐马尔可夫HMM模型。

在一可选实施例中,处理器41在基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列时,用于:

将拼音序列输入拼音理解模型;

在拼音理解模型中,基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文;根据至少一个字符组各自对应的中文,组成中文序列。

在一可选实施例中,处理器41在将拼音序列输入拼音理解模型时,用于:

确定字段名所处的目标行业领域;

将拼音序列以及目标行业领域输入拼音理解模型;

基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文时,用于:

基于目标行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文。

在一可选实施例中,处理器41在将拼音序列输入拼音理解模型之前,还用于:

获取训练文本,并将训练文本分割为单字序列;

将单字序列转换为拼音全拼序列以及拼音缩写序列;

以拼音全拼序列以及拼音缩写序列作为输入,以训练文本作为输出,训练拼音理解模型,以使拼音理解模型学习拼音全拼和拼音简写与中文之间的映射关系。

在一可选实施例中,拼音理解模型采用序列到序列seq2seq模型。

在一可选实施例中,处理器41还用于:

将字段名对应的字段注释补充至字段名所在的数据库中;或者

基于字段名对应的字段注释以及字段名所在的数据库中的其它字段名对应的字段注释,构建数据库下字段名与字段注释之间的关联关系。

在一可选实施例中,处理器41在对字段名进行拼音分词,以获得拼音序列之前,还用于:

若字段名中包含分隔字符,可根据分隔字符,将字段名分割多个字符段;

针对多个字符段,分别执行对字段名进行拼音分词,以获得拼音序列的操作和基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列的操作,以获得多个字符段各自的中文序列;

根据中文序列,生成字段名对应的字段注释,包括:

对多个字符段各自的中文序列进行拼接,以生成字段名对应的字段注释。

值得说明的是,上述关于计算设备的各实施例中的技术细节,可参考前述字段注释生成方法的各实施例中的相关描述,为节省篇幅,在此不再赘述,但这不应造成本申请保护范围的损失。

进一步,如图4所示,该计算设备还包括:通信组件42、电源组件43等其它组件。图4中仅示意性给出部分组件,并不意味着计算设备只包括图4所示组件。

相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。

图5为本申请又一实施例提供的另一种计算设备的结构示意图。如图5所示,该计算设备包括:存储器50和处理器51。

处理器51,与存储器50耦合,用于执行存储器50中的计算机程序,以用于:

获取待理解字符串;

对待理解字符串进行拼音分词,以获得拼音序列;

基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列;

根据中文序列,生成待理解字符串对应的理解结果。

在一可选实施例中,拼音序列中包含至少一个字符组,字符组中包含拼音全拼或拼音简写。

在一可选实施例中,处理器51在对待理解字符串进行拼音分词,以获得拼音序列时,用于:

将待理解字符串输入拼音分词模型;

在拼音分词模型中,识别待理解字符串中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符,分别作为字符组,以生成待理解字符串对应的拼音序列。

在一可选实施例中,处理器51在识别待理解字符串中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符时,用于:

针对待理解字符串中的每个字符,根据字符的上下文及字符本身,确定字符符合拼音全拼下各拼写位置的状态特征的概率;

若字符符合拼音全拼下任意拼写位置的状态特征的概率满足预设条件,确定字符符合拼音全拼特征;

若字符符合拼音全拼下各拼写位置的状态特征的概率均不满足预设条件,确定字符为不符合拼音全拼特征的单字符。

在一可选实施例中,处理器51在将待理解字符串输入拼音分词模型之前,还用于:

获取训练文本,并将训练文本转换为拼音全拼,以获得训练序列;

为训练序列中的字符标注所属的拼写位置;

将标注后的训练序列输入拼音分词模型,以供拼音分词模型学习拼音全拼下各拼写位置的状态特征,作为拼音全拼特征。

在一可选实施例中,拼音分词模型采用隐马尔可夫HMM模型。

在一可选实施例中,处理器51在基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列时,用于:

将拼音序列输入拼音理解模型;

在拼音理解模型中,基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文;根据至少一个字符组各自对应的中文,组成中文序列。

在一可选实施例中,处理器51在将拼音序列输入拼音理解模型时,用于:

确定待理解字符串所处的目标行业领域;

将拼音序列以及目标行业领域输入拼音理解模型;

基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文时,用于:

基于目标行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文。

在一可选实施例中,处理器51在将拼音序列输入拼音理解模型之前,还用于:

获取训练文本,并将训练文本分割为单字序列;

将单字序列转换为拼音全拼序列以及拼音缩写序列;

以拼音全拼序列以及拼音缩写序列作为输入,以训练文本作为输出,训练拼音理解模型,以使拼音理解模型学习拼音全拼和拼音简写与中文之间的映射关系。

在一可选实施例中,拼音理解模型采用序列到序列seq2seq模型。

在一可选实施例中,该方法还用于:

将待理解字符串对应的理解结果补充至待理解字符串所在的数据库中;或者

基于待理解字符串对应的理解结果以及待理解字符串所在的数据库中的其它待理解字符串对应的理解结果,构建数据库下待理解字符串与理解结果之间的关联关系。

在一可选实施例中,处理器51在对待理解字符串进行拼音分词,以获得拼音序列之前,还用于:

若待理解字符串中包含分隔字符,可根据分隔字符,将待理解字符串分割多个字符段;

针对多个字符段,分别执行对待理解字符串进行拼音分词,以获得拼音序列的操作和基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列的操作,以获得多个字符段各自的中文序列;

根据中文序列,生成待理解字符串对应的字段注释,包括:

对多个字符段各自的中文序列进行拼接,以生成待理解字符串对应的字段注释。

值得说明的是,上述关于计算设备的各实施例中的技术细节,可参考前述字符串理解方法的各实施例中的相关描述,为节省篇幅,在此不再赘述,但这不应造成本申请保护范围的损失。

进一步,如图5所示,该计算设备还包括:通信组件52、电源组件53等其它组件。图5中仅示意性给出部分组件,并不意味着计算设备只包括图5所示组件。

相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。

其中,图4和图5中的存储器,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

其中,图4和图5中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

其中,图4和图5中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

21页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种字段注释生成、字符串理解方法、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!