计算文件之间的差异
语音翻译文本校正系统、方法、装置及设备
本申请公语音翻译文本校正系统、方法、装置及相关设备。其中,所述系统通过服务端确定与客户端实时采集的语音流数据对应的源语言文本片段,将文本片段发送至客户端;以及,接收客户端发送的人工校正后第一子句文本,确定与第一子句文本对应的目标语言第二子句文本,将第二子句文本发送至客户端;客户端实时采集语音流数据,发送语音流数据;以及,显示文本片段,确定第一子句文本,发送第一子句文本;以及,显示第二子句文本。采用这种处理方式,使得随着实时语音识别进度,对原文子句文本进行人工校正,并在一句话识别完成前,对经过人工校正的原文子句文本进行翻译,实现子句粒度的翻译文本校正处理;因此,可以有效提升校正效率和校正质量。

2021-11-02

访问量:32

人为填写的地址文本相似度处理方法和系统
本发明实施例公开了一种人为填写的地址文本相似度处理方法和系统。本发明实施例以一种合理的方式去除地址中出现的常规字符,从而去除地址常规字符所引起的错误的相似度贡献。用较低的时间复杂度计算出两个地址中所有大于两个长度的公共子串。设计出能够将公共子串长度序列映射成[0,1]空间的增函数,该函数合理的描述了由人为填写地址数据的特点。并设计了一种能够将并不相似但实际为相同地址识别出来的地址聚类算法。

2021-11-02

访问量:27

一种文本摘要分析方法、装置、电子设备及存储介质
本发明提供了一种文本摘要分析方法,包括:确定所述摘要文本对应的自参照冗余度参数;确定所述目标文本对应的伪参照信息;基于所述目标文本对应的伪参照信息,确定与目标文本相匹配的中心度加权参数;基于述摘要文本对应的自参照冗余度参数和目标文本相匹配的中心度加权参数,确定目标文本与摘要文本的相关度参数,确定摘要文本的分析结果。本发明还提供了文本摘要分析装置、电子设备及存储介质。本发明能够实现通过目标文本相匹配的中心度加权参数,减少伪参照信息中的噪声信息对摘要文本的分析结果的影响,通过摘要文本对应的自参照冗余度参数,更加准确地对没有人工标注参照的摘要文本进行自动处理,提升了摘要文本测评的效率。

2021-11-02

访问量:27

一种基于不确定性与相似度量的主动学习分类方法
本发明公开了一种基于不确定性与相似度量的主动学习分类方法,包括以下步骤:S1:对未标注分类数据进行预处理、向量化;S2:聚类,并选择各类中最具代表性的样本进行人工标注并记为数据集L,其余样本记为集合U;S3:计算U中各样本的相似度量值;S4:将L用于训练多个不同的机器学习模型,获得各模型的准确率和输出值;S5:确定各模型的权重值和不确定程度,从而确定不确定性决策值;S6:确定有最大价值的多样性训练样本,对其标注后更新至数据集L中,同时将从U中移除,得到更新的集合U;S7:重复步骤S3-S6,直至各模型的准确率不再变化,得到最终的标记数据集L。本发明能够减小信息冗余样本量,在保证训练效果的基础上减少数据标注成本。

2021-11-02

访问量:30

一种数据处理方法、装置、存储介质和计算机设备
本申请实施例公开了一种数据处理方法,通过获取源样本和标签样本对应的词汇集合;获取目标词汇及其近义词,并计算出目标词汇及其近义词之间的相似分数;将词汇集合中的词汇和近义词转化为词向量集合,并将目标词汇和对应的近义词进行向量混合得到混合词向量;将混合词向量替换对应的目标词汇的词向量并输入至预设模型中进行训练;生成混合标签,获取混合标签的词概率分布和预设模型输出的混合标签的词预测概率分布之间的差异,根据差异对预设模型的模型参数进行迭代训练,得到训练后的预设模型。以此提升数据处理的效率,提高训练后的模型输出的多样性。

2021-11-02

访问量:24

异常评分的检测方法、装置、设备及计算机可读存储介质
本申请提供了一种异常评分的检测方法、装置、设备及计算机可读存储介质;方法包括:获取目标问题对应的音频答案、以及所述音频答案的文本内容;基于所述文本内容,对所述音频答案进行多模态特征提取,得到所述音频答案的第一多模态特征;获取所述目标问题对应的参考音频的第二多模态特征;将所述音频答案的第一多模态特征与所述参考音频的第二多模态特征进行匹配,并基于匹配结果确定所述音频答案的参考评分;获取所述音频答案的原始评分,并基于所述参考评分对所述原始评分进行异常检测,得到用于表征所述原始评分是否异常的检测结果。通过本申请,能够实现对异常评分的有效检测。

2021-11-02

访问量:20

文件处理方法、装置、电子设备和可读存储介质
本申请公开了一种文件处理方法、装置、电子设备及可读存储介质,属于数据处理技术领域。该方法包括在目标界面包括待保存到本地的第一文件的情况下,确定本地是否包括与所述第一文件的相关性大于预设阈值的第二文件;在本地包括所述第二文件的情况下,输出目标提示信息。本申请可以过滤与本地文件相关性高的待保存文件,避免重复保存相关文件,节省终端设备的本地存储空间。

2021-11-02

访问量:24

一种基于象形-语义双特征空间映射的评审专家推荐方法
本申请涉及专家推荐技术领域,提供一种基于象形-语义双特征空间映射的评审专家推荐方法,首先利用RoBerta模型对文本进行层次化表示,进而使用Bi-LSTM+CRF模型对项目文本和专家文本进行命名实体识别,然后将命名实体通过象形-语义双特征空间映射为特征向量,并对特征向量进行欧氏距离和余弦相似度计算,获得匹配得分,再对匹配得分进行加权求和,获得综合匹配得分,最后将综合匹配得分最高的专家作为该项目文本的评审专家。本申请提出基于语义-象形双特征空间映射的实体匹配策略,智能化实现项目与专家的有效精准匹配,进而降低了评审工作人力成本、增强了评审结果可靠性以及提高了评审整体效率,是一种准确高效的方法。

2021-10-29

访问量:28

文本识别方法、装置、电子设备、存储介质及转账方法
本公开提供了一种文本识别方法、装置、电子设备、可读存储介质及转账方法,可以应用于人工智能技术领域、金融领域或其他领域。该文本识别方法,包括:获取非标准文本内容,对非标准文本内容进行第一预处理,生成非标准语料库,非标准文本内容属于标准类别库的一种;对标准类别库中的标准文本内容进行第二预处理,生成标准语料库;比对标准语料库的标准词汇和非标准语料库中的非标准词汇,基于比对结果对非标准语料库中的非标准词汇进行第三预处理,生成准标准语料库,第三预处理包括添加和/或删除非标准语料库中的非标准词汇;对标准语料库的标准词汇和准标准语料库中的准标准词汇进行后置处理以生成排名,根据排名输出文本识别结果。

2021-10-29

访问量:35

一种词汇扩展方法和系统
本说明书实施例提供一种词汇扩展方法和系统,方法包括:获取目标词,目标词包括单个单词或两个以上单词构成的词组;获取与所述目标词关联的至少一个候选文本;从至少一个候选文本中确定多个候选词,多个候选词包括至少一个候选文本中的单词和连续的至少两个单词构成的词组;从多个候选词中确定目标词的至少一个扩展词。

2021-10-29

访问量:27

注册成为会员可查看更多数据。
技术分类