一种文本生成方法、装置及电子设备

文档序号:136554 发布日期:2021-10-22 浏览:22次 >En<

阅读说明:本技术 一种文本生成方法、装置及电子设备 (Text generation method and device and electronic equipment ) 是由 魏梦溪 李旭瑞 贺一帆 于 2020-04-21 设计创作,主要内容包括:本发明公开了一种文本生成方法、装置及电子设备,该方法包括:获取待处理数据,其中,待处理数据包括文字和对应于至少一个指标的数值;根据文字得到对应的文字向量,根据每一指标的数值得到对应指标的数值向量;根据每一指标对应的数值向量和文字向量,确定待透出的指标,作为目标指标;根据目标指标和预设的文本模板,生成数据描述文本。(The invention discloses a text generation method, a text generation device and electronic equipment, wherein the method comprises the following steps: acquiring data to be processed, wherein the data to be processed comprises characters and numerical values corresponding to at least one index; obtaining a corresponding character vector according to the characters, and obtaining a numerical value vector of a corresponding index according to the numerical value of each index; determining indexes to be disclosed as target indexes according to the numerical value vector and the character vector corresponding to each index; and generating a data description text according to the target index and a preset text template.)

一种文本生成方法、装置及电子设备

技术领域

本发明涉及数据处理技术领域,更具体地,涉及一种文本生成方法、一种文本生成装置、一种电子设备、及一种计算机可读存储介质。

背景技术

商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

在现有技术中,通常是基于固定的指标和固定的阈值,对大量的交易数据进行分析,生成对应的描述文本,以方便用户查看。

但是,这种方式所生成的描述文本仅能反映预设的固定指标的描述信息,而无法反映其他关键的信息。

发明内容

本发明的一个目的是提供一种生成数据的描述文本的新的技术方案。

根据本发明的第一方面,提供了一种文本生成方法,包括:

获取待处理数据,其中,所述待处理数据包括文字和对应于至少一个指标的数值;

根据文字得到对应的文字向量,根据每一指标的数值得到对应指标的数值向量;

根据每一指标对应的数值向量和所述文字向量,确定待透出的指标,作为目标指标;

根据所述目标指标和预设的文本模板,生成数据描述文本。

可选的,还包括:

根据目标指标对应的数值向量和文字向量,确定所述目标指标对应的程度副词;

所述程度副词为表示所述目标指标的变化程度的副词;所述程度副词用于生成所述数据描述文本。

可选的,还包括:

根据待处理数据的文字向量和数值向量,确定待透出的文字,作为目标文字;

确定所述目标文字和所述目标指标对应的数值,作为目标数值;所述目标文字和所述目标数值用于生成所述数据描述文本。

可选的,所述根据待处理数据的文字向量和数值向量,确定待透出的文字,作为目标文字包括:

将所述文字向量和所有指标的数值向量进行组合,得到数据向量;

根据所述数据向量,确定所述目标文字。

可选的,所述根据所述数据向量,确定所述目标文字包括:

根据待处理数据的数据向量,确定所述待处理数据在其他待处理数据的影响下的数据向量,作为影响数据向量;

基于预设的文字分类器,根据所述影响数据向量,确定所述待处理数据中的文字是否为待透出的所述目标文字。

可选的,所述根据每一指标对应的数值向量和所述文字向量,确定待透出的指标,作为目标指标包括:

将每一指标的数值向量和文字向量进行组合,得到对应指标的指标向量;

根据每一指标的指标向量,确定所述目标指标。

可选的,所述根据每一指标的指标向量,确定所述目标指标包括:

对于每一指标,根据所述待处理数据的对应的指标向量,得到对应指标的综合指标向量;

基于预设的指标分类器,根据每一指标的综合指标向量,确定对应指标是否为待透出的所述目标指标。

可选的,所述根据文字得到对应的文字向量包括:

将所述文字的每个词转换为对应的词向量;

基于预设的神经网络,根据所述词向量得到所述神经网络的隐藏状态;

根据所述神经网络的隐藏状态,得到对应文字的文字向量。

可选的,所述根据每一指标的数值得到对应指标的数值向量包括:

对每一指标的数值进行归一化处理;

将每一指标的归一化处理后的数值,映射到预设的向量空间,得到对应指标的数值向量。

可选的,所述待处理数据为结构化数据。

根据本发明的第二方面,提供了一种文本生成装置,包括:

数据获取模块,用于获取待处理数据,其中,所述待处理数据包括文字和对应于至少一个指标的数值;

向量生成模块,用于根据文字得到对应的文字向量,根据每一指标的数值得到对应指标的数值向量;

指标确定模块,用于根据每一指标对应的数值向量和所述文字向量,确定待透出的指标,作为目标指标;

文本生成模块,用于根据所述目标指标和预设的文本模板,生成数据描述文本。

根据本发明的第三方面,提供了一种电子设备,包括:

处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据本发明第一方面所述的方法。

根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如本发明第一方面所述的方法。

在本发明的实施例中,通过对待处理数据中的文字对应的文字向量、和每一指标的数值对应的数值向量,确定待透出的指标,并根据待透出的指标生成数据描述文本进行展示。这样,可以根据指标的数值大小和前述文字原因,从多个指标中选择性地透出关键的、用户关心的、涨跌幅度较大的目标指标,还能够保证透出信息的准确性。

通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。

图1是根据本发明第一个实施例的电子设备的硬件结构示意图。

图2是根据本发明第二个实施例的电子设备的硬件结构示意图。

图3示出了本发明实施例的文本生成方法的流程图。

图4示出了本发明实施例的文本生成方法的场景示意图。

图5示出了本发明的实施例的文本生成方法的一个例子的流程图。

图6示出了本发明的实施例的文本生成装置的原理框图。

图7示出了本发明第三个实施例的电子设备的原理框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1和图2是可用于实现本发明任意实施例的方法的电子设备1000的硬件配置的框图。

在一个实施例中,如图1所示,电子设备1000可以是服务器1100。

服务器1100提供处理、数据库、通讯设施的计算机。服务器1100可以是整体式服务器或是跨多计算机或计算机数据中心的分散式服务器。服务器可以是各种类型的,例如但不限于,网络服务器,新闻服务器,邮件服务器,消息服务器,广告服务器,文件服务器,应用服务器,交互服务器,数据库服务器,或代理服务器。在一些实施例中,每个服务器可以包括硬件,软件,或用于执行服务器所支持或实现的合适功能的内嵌逻辑组件或两个或多个此类组件的组合。例如,服务器例如刀片服务器、云端服务器等,或者可以是由多台服务器组成的服务器群组,可以包括上述类型的服务器中的一种或多种等等。

本实施例中,服务器1100可以如图1所示,包括处理器1110、存储器1120、接口装置1130、通信装置1140、显示装置1150、输入装置1160。

在该实施例中,服务器1100还可以包括扬声器、麦克风等等,在此不做限定。

处理器1110可以是专用的服务器处理器,也可以是满足性能要求的台式机处理器、移动版处理器等,在此不做限定。存储器1120例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1130例如包括各种总线接口,例如串行总线接口(包括USB接口)、并行总线接口等。通信装置1140例如能够进行有线或无线通信。显示装置1150例如是液晶显示屏、LED显示屏触摸显示屏等。输入装置1160例如可以包括触摸屏、键盘等。

在该实施例中,服务器1100的存储器1120用于存储指令,该指令用于控制处理器1110进行操作以至少执行根据本发明任意实施例的方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。

尽管在图1中示出了服务器1100的多个装置,但是,本发明可以仅涉及其中的部分装置,例如,服务器1100只涉及存储器1120和处理器1110。

在一个实施例中,电子设备1000可以是操作人员使用的PC机、笔记本电脑等终端设备1200,在此不做限定。

本实施例中,参照图2所示,终端设备1200可以包括处理器1210、存储器1220、接口装置1230、通信装置1240、显示装置1250、输入装置1260、扬声器1270、麦克风1280等等。

处理器1210可以是移动版处理器。存储器1220例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1230例如包括USB接口、耳机接口等。通信装置1240例如能够进行有线或无线通信,通信装置1240可以包括短距离通信装置,例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意装置,通信装置1240也可以包括远程通信装置,例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意装置。显示装置1250例如是液晶显示屏、触摸显示屏等。输入装置1260例如可以包括触摸屏、键盘等。用户可以通过扬声器1270和麦克风1280输入/输出语音信息。

在该实施例中,终端设备1200的存储器1220用于存储指令,该指令用于控制处理器1210进行操作以至少执行根据本发明任意实施例的方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。

尽管在图2中示出了终端设备1200的多个装置,但是,本发明可以仅涉及其中的部分装置,例如,终端设备1200只涉及存储器1220和处理器1210和显示装置1250。

在本发明的实施例中,通过获取待处理数据;根据待处理数据中的文字得到对应的文字向量,根据待处理数据中每一指标的数值得到对应指标的数值向量;根据每一指标对应的数值向量和文字向量,确定待透出的目标指标;根据目标指标和预设的文本模板,生成待处理数据对应的数据描述文本。

本说明书实施例中的待处理数据,例如可以是消费数据,体检数据,疫情数据,产品销售数据等。该数据描述文本可以是描述待处理数据的关键信息的文本。在待处理数据为消费数据的情况下,生成的数据描述文本可以包含大宗交易的提示信息或者重点消费信息。在待处理数据为体检数据的情况下,生成的数据描述文本可以包含最容易出现异常的健康指标。在待处理数据为疫情数据的情况下,生成的数据描述文本可以包括需要用户重点关注的疫情信息。在待处理数据为产品销售数据的情况下,生成的数据描述文本可以包含销量变化幅度较大的产品信息。

<方法实施例一>

在本实施例中,提供一种文本生成方法。该方法可以是由电子设备实施。该电子设备可以是如图1所示的服务器1100,或者是如图2所示终端设备1200。

根据图3所示,本实施例的文本生成方法可以包括如下步骤S3100~S3400:

步骤S3100,获取待处理数据。

其中,待处理数据是包含文字和数字的数据。在本发明的一个实施例中,待处理数据包括文字和对应于至少一个指标的数值。

在本发明的一个实施例中,待处理数据可以是智能商业场景中所产生的数据。

进一步地,待处理数据可以是结构化数据。例如,该待处理数据可以是如下表1所示的数据表。

表1

在如表1所示的数据表中,可以是除标题行以外,每一行的数据均为一条待处理数据。在第一行数据中,文字包括交易平台1、消费卡、店铺1,对应于指标1的数值为46.3,对应于指标2的数值为102.7%,对应于指标3的数值为53.2。在第二行数据中,文字包括交易平台2、消费卡、店铺2,对应于指标1的数值为26.2,对应于指标2的数值为46.66%,对应于指标3的数值为32.7。在第三行数据中,文字包括交易平台3、消费卡、店铺3,对应于指标1的数值为26.2,对应于指标2的数值为46.66%,对应于指标3的数值为23.6。在第四行数据中,文字包括交易平台4、消费卡、店铺4,对应于指标1的数值为35.9,对应于指标2的数值为46.66%,对应于指标3的数值为23.4。

步骤S3200,根据文字得到对应的文字向量,根据每一指标的数值得到对应指标的数值向量。

在本发明的一个实施例中,根据文字得到对应的文字向量的方式可以包括:

将文字的每个词转换为对应的词向量;基于预设的神经网络,根据该词向量得到该神经网络的隐藏状态;根据神经网络的隐藏状态,得到对应文字的文字向量。

在本实施例中,可以是通过用来产生词向量的相关模型(word to vector,word2vec)来产生该条待处理数据中文字的每个词的词向量。Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。

在本发明的一个实施例中,该预设的神经网络可以是预先训练好的任意一种神经网络,例如可以是CNN网络、RNN网络、单向LSTM网络、或双向LSTM网络。

在该神经网络是单向神经网络的情况下,按照每个词在该条待处理数据的文字中的顺序,将词向量正向该单向神经网络中,可以得到该单向神经网络的隐藏状态那么,可以是将该单向神经网络的隐藏状态作为对应文字的文字向量hc

在该神经网络是双向神经网络的情况下,按照每个词在该条待处理数据的文字中的顺序,将词向量正向、反向输入该双向神经网络中,可以得到该双向神经网络的两个隐藏状态那么,可以是将该合并该双向神经网络的两个隐藏状态将合并后的隐藏状态作为对应文字的文字向量hc

在本发明的一个实施例中,根据每一指标的数值得到对应指标的数值向量的方式可以包括:

对每一指标的数值进行归一化处理;将每一指标的归一化处理后的数值,映射到预设的向量空间,得到对应指标的数值向量。

在一个例子中,可以是将每一指标的数值归一化至[-1,1]内的数值;再将[-1,1]进行分桶,桶的数量可以是预先根据应用场景或具体需求设定好的。再分别都映射到预设的向量空间中,可以将单个数值扩充为指定维度的数值向量。预设的向量空间可以采取随机初始化的方式。通过这样的方式,最大化地保留和丰富了数值的相对信息。

步骤S3300,根据每一指标对应的数字向量和文字向量,确定待透出的指标,作为目标指标。

在本发明的一个实施例中,根据每一指标对应的数字向量和文字向量,确定待透出的指标,作为目标指标可以包括如下所示的步骤S3310~S3320:

步骤S3310,将每一指标的数值向量和文字向量进行组合,得到对应指标的指标向量。

在待处理数据包括多条的情况下,可以是对于每条待处理数据,分别将每一指标的数值向量和文字向量进行组合,得到对应指标的指标向量。

例如,第i条待处理数据中文字的文字向量hc,i,指标k的指标向量为vk,i,那么,将第i条待处理数据中指标k的指标向量vk,i和文字向量hc,i进行组合,得到第i条待处理数据中指标k的指标向量Hk,i=[hc,i,vk,i]。

步骤S3320,根据每一指标的指标向量,确定目标指标。

在本发明的一个实施例中,根据每一指标的指标向量,确定目标指标可以包括如下所示的步骤S3321~S3322:

步骤S3321,对于每一指标,根据待处理数据的对应的指标向量,得到对应指标的综合指标向量。

在一个例子中,可以是对于每一指标,根据预设的权重对每条待处理数据的对应的指标向量进行加权求和,得到对应指标的综合指标向量。

具体的,每条待处理数据的权重可以是预先根据应用场景或具体需求设定好的,也可以是预先通过训练得到的。

例如,第i条待处理数据中指标k的指标向量为Hk,i,第i条待处理数据对应的权重为λi,指标k的综合指标向量可以表示为Ck=∑ii*Hk,i)。

在另一个例子中,可以是对于每一指标,根据预设的权重对每条待处理数据的对应的指标向量进行加权求平均值,得到对应指标的综合指标向量。

步骤S3322,基于预设的指标分类器,根据每一指标的综合指标向量,确定对应指标是否为待透出的指标的目标指标。

该指标分类器可以是根据预先获取的指标样本集对二分类算法进行训练得到的。其中,指标样本集中的每条样本包含每一指标的综合指标向量、及用于表示对应指标是否透出的标签。

具体的,可以是将每一指标的综合指标向量输入至该指标分类器中,得到输出结果,例如可以是0或者1,根据输出结果确定对应指标是否为待透出的目标指标。例如可以是在其中一个指标对应的输出结果为1的情况下,将该指标作为目标指标,在其中一个指标对应的输出结果0的情况下,不将该指标作为目标指标。

步骤S3400,根据目标指标和预设的文本模板,生成数据描述文本。

其中,文本模板可以是预先根据应用场景或具体需求设定好的。例如,该文本模板可以包括“XX大幅增长”,其中,XX为需要填写目标指标的位置。

具体的,可以是将目标指标填至文本模板中对应的位置上,得到数据描述文本。

在本发明的一个实施例中,在得到数据描述文本之后,该方法还可以包括:展示该数据描述文本。

该方法的应用场景具体可以是如图4所示,由电子设备来获取待处理数据,根据文字得到对应的文字向量,根据每一指标的数值得到对应指标的数值向量;根据每一指标对应的数字向量和文字向量,确定待透出的指标,作为目标指标;根据目标指标和预设的文本模板,生成数据描述文本。

具体的,可以是在执行本发明实施例的电子设备的界面上展示该数据描述文本,以供用户可以直观地了解待处理数据中关键的、用户关心的、变化幅度较大的信息。

在本发明的实施例中,通过对待处理数据中的文字对应的文字向量、和每一指标的数值对应的数值向量,确定待透出的指标,并根据待透出的指标生成数据描述文本进行展示。这样,可以根据指标的数值大小和前述文字原因,从多个指标中选择性地透出关键的、用户关心的、涨跌幅度较大的目标指标,还能够保证透出信息的准确性。

<方法实施例二>

在前述实施例一的基础上,该方法还可以包括:根据目标指标对应的数值向量和文字向量,确定目标指标对应的程度副词,以还根据该程度副词生成数据描述文本,即程度副词也用于生成数据描述文本。

其中,程度副词为表示目标指标的变化程度的副词。例如可以是暴增、大幅增长、平稳增长、保持平稳、没有变化、大幅下跌、或暴降等。

在本发明的一个实施例中,根据目标指标对应的数值向量和文字向量,确定目标指标对应的程度副词的方式可以包括:

获取目标指标的综合指标向量和预设的副词分类器;基于该副词分类器,根据目标指标的综合指标向量,确定目标指标的程度副词。

该副词分类器可以是根据预先获取的副词样本集对N分类算法(N为程度副词的数量)进行训练得到的。其中,副词样本集中的每条样本包含每一指标的综合指标向量、及用于表示对应程度副词的标签。

在此基础上,可以是根据目标指标、该程度副词和预设的文本模板,生成数据描述文本。

例如,文本模板可以包括“XXYY”,“XX”为需要填写目标指标的位置,“YY”为需要填写程度副词的位置,那么,在目标指标为“指标1”,程度副词为“大幅增长”的情况下,生成数据描述文本可以包括“指标1大幅增长”。

在本实施例中,通过该程度副词来描述目标指标的变化情况,可以使得生成的数据描述文本更加生动,更加灵活,也更加合理。

<方法实施例三>

在前述的方法实施例一和/或方法实施例二的基础上,该方法还可以包括如下所述的步骤S4100~S4200:

步骤S4100,根据待处理数据的文字向量和数值向量,确定待透出的文字,作为目标文字。

在本发明的一个实施例中,根据待处理数据的文字向量和数值向量,确定待透出的文字,作为目标文字可以包括如下所示的步骤S4110~S4120:

步骤S4110,将文字向量和所有指标的数值向量进行组合,得到数据向量。

在待处理数据为多条的实施例中,可以是对于每条待处理数据,将文字向量和所有指标的数值向量进行组合,得到对应待处理数据的数据向量。

例如,指标的数量为n,第i条待处理数据中文字的文字向量hc,i,指标k的指标向量为vk,i,那么,将第i条待处理数据中每个指标的指标向量vk,i(k∈[1,n])和文字向量hc,i进行组合,得到第i条待处理数据中的数据向量Hi=[hc,i,v1,i,v2,i,…,vk,i,…vn,i],k∈[1,n]。

步骤S4120,根据待处理数据的数据向量,确定目标文字。

在本发明的一个实施例中,根据数据向量,确定目标文字可以包括如下所示的步骤S4121~S4122:

步骤S4121,根据待处理数据的数据向量,确定待处理数据在其他待处理数据的影响下的数据向量,作为影响数据向量。

在待处理数据为多条的实施例中,可以是根据待处理数据的数据向量,分别确定每条待处理数据在其他待处理数据的影响下的数据向量,作为影响数据向量。

在一个例子中,可以是对于每条待处理数据,根据对应的权重对所有待处理数据的对应的数据向量进行加权求和,得到对应待处理数据在其他待处理数据的影响下的影响数据向量。

具体的,在确定每条待处理数据的影响数据向量时,所有待处理数据的权重可以不同,每一待处理数据的权重是预先根据应用场景或具体需求设定好的,也可以是预先通过训练得到的。

例如,第i条待处理数据的数据向量为Hi,对于第j条待处理数据而言,第i条待处理数据对应的权重为λi,j,那么,第j条待处理数据在其他待处理数据的影响下的影响数据向量可以表示为Cj=∑ii,j*Hi)。

在另一个例子中,可以是对于每条待处理数据,根据对应的权重对所有待处理数据的对应的数据向量进行加权求平均值,得到对应待处理数据在其他待处理数据的影响下的影响数据向量。

步骤S4122,基于预设的文字分类器,根据待处理数据的影响数据向量,确定对应待处理数据中的文字是否为待透出的目标文字。

该文字分类器可以是根据预先获取的文字样本集对二分类算法进行训练得到的。其中,文字样本集中的每条样本包含对应的影响数据向量、及用于表示对应文字是否透出的目标文字。

具体的,可以是将每条待处理数据的影响数据向量输入至该文字分类器中,得到输出结果,例如可以是0或者1,根据输出结果确定对应待处理数据中的文字是否为待透出的目标文字。例如可以是在其中一个待处理数据中的文字对应的输出结果为1的情况下,将该待处理数据中的文字作为目标文字,在其中一个待处理数据中的文字对应的输出结果0的情况下,不将该待处理数据中的文字作为目标文字。

在本发明的另一个实施例中,可以是分别根据每条待处理数据的数据向量,确定对应待处理数据的文字是否为待透出的目标文字。

具体的,可以是分别将每条待处理数据的数据向量输入至预先训练好的另一文字分类器中,得到对应待处理数据的文字是否为待透出的目标文字的输出结果,根据该输出结果确定确定对应待处理数据中的文字是否为待透出的目标文字。

步骤S4200,确定目标文字和目标指标对应的数值,作为目标数值。

具体的,目标数值可以是待处理数据中所包含的、与目标文字和目标指标对应的数值,在目标文字和目标指标确定的情况下,该目标数值是唯一的。

例如,在方法实施例一的表1中,在目标文字包括交易平台1、消费卡和店铺4,目标指标为指标1的情况下,目标文字和目标指标对应目标数值为35.9。

在本实施例中,目标文字和目标数值可以用于生成数据描述文本。具体的,可以是根据目标文字、目标指标、目标数值和文本模板,生成数据描述文本。

例如,例如,文本模板可以包括“受AA的影响,XXYY,AA的XX为ZZ”,“AA”为需要填写目标文字的位置,“XX”为需要填写目标指标的位置,“YY”为需要填写程度副词的位置,“ZZ”为需要填写目标数值的位置,那么,在目标文字为“店铺4”,目标指标为“指标1”,程度副词为“大幅增长”,目标数值为35.9的情况下,生成数据描述文本可以包括“受店铺4的影响,指标1大幅增长,店铺4的指标1为35.9”。

在本实施例中,通过目标文字和目标数值来生成数据描述文本,可以使得数据描述文本能够透出对用户更具有价值的信息。

<例子>

图5为本发明一个例子的文本生成方法的流程图。

如图5所示,该方法可以包括步骤S5001~S5012:

步骤S5001,获取多条待处理数据。

其中,每条待处理数据包括文字和对应于至少一个指标的数值。

在一个例子中,多条数据可以是结构化数据,其中一条待处理数据可以是结构化数据中的一行数据。

步骤S5002,对于每条待处理数据,根据文字得到对应的文字向量,根据每一指标的数值得到对应指标的数值向量。

步骤S5003,对于每条待处理数据,分别将每一指标的数值向量和文字向量进行组合,得到对应指标的指标向量。

步骤S5004,对于每一指标,根据每条待处理数据的对应的指标向量,得到对应指标的综合指标向量。

步骤S5005,基于预设的指标分类器,根据每一指标的综合指标向量,确定对应指标是否为待透出的指标的目标指标。

步骤S5006,基于预设的副词分类器,根据目标指标的综合指标向量,确定目标指标的程度副词。

其中,程度副词为表示目标指标的变化程度的副词。例如可以是暴增、大幅增长、平稳增长、保持平稳、没有变化、大幅下跌、或暴降等。

步骤S5007,对于每条待处理数据,将文字向量和所有指标的数值向量进行组合,得到数据向量。

步骤S5008,根据每条待处理数据的对应的数据向量,分别确定每条待处理数据在其他待处理数据的影响下的数据向量,作为影响数据向量。

步骤S5009,基于预设的文字分类器,根据每条待处理数据的影响数据向量,确定对应待处理数据中的文字是否为待透出的目标文字。

步骤S5010,确定目标文字和目标指标对应的数值,作为目标数值。

步骤S5011,根据目标指标、程度副词、目标文字、目标数值和预设的文本模板,生成数据描述文本。

步骤S5012,展示该数据描述文本。

<文本生成装置实施例>

在本实施例中,提供一种文本生成装置6000,如图6所示,包括数据获取模块6100、向量生成模块6200、指标确定模块6300和文本生成模块6400。该数据获取模块6100用于获取待处理数据,其中,待处理数据包括文字和对应于至少一个指标的数值;该向量生成模块6200用于根据文字得到对应的文字向量,根据每一指标的数值得到对应指标的数值向量;该指标确定模块6300用于根据每一指标对应的数值向量和文字向量,确定待透出的指标,作为目标指标;该文本生成模块6400用于根据目标指标和预设的文本模板,生成数据描述文本。

在本发明的一个实施例中,该文本生成装置6000还可以包括用于展示数据描述文本的模块。

在本发明的一个实施例中,文本生成装置6000还可以包括:

用于根据目标指标对应的数值向量和文字向量,确定目标指标对应的程度副词的模块,。

其中,程度副词为表示目标指标的变化程度的副词,用于生成数据描述文本。

在本发明的一个实施例中,文本生成装置6000还可以包括:

用于根据待处理数据的文字向量和数值向量,确定待透出的文字,作为目标文字的模块;

用于确定目标文字和目标指标对应的数值,作为目标数值的模块。

其中,目标文字和目标数值可以用于生成数据描述文本。

在本发明的一个实施例中,根据待处理数据的文字向量和数值向量,确定待透出的文字,作为目标文字包括:

将文字向量和所有指标的数值向量进行组合,得到数据向量;

根据数据向量,确定目标文字。

在本发明的一个实施例中,根据数据向量,确定目标文字包括:

根据待处理数据的数据向量,确定待处理数据在其他待处理数据的影响下的数据向量,作为影响数据向量;

基于预设的文字分类器,根据影响数据向量,确定对应待处理数据中的文字是否为待透出的目标文字。

在本发明的一个实施例中,指标确定模块6300还可以用于:

将每一指标的数值向量和文字向量进行组合,得到对应指标的指标向量;

根据每一指标的指标向量,确定目标指标。

在本发明的一个实施例中,根据每一指标的指标向量,确定目标指标包括:

对于每一指标,根据待处理数据的对应的指标向量,得到对应指标的综合指标向量;

基于预设的指标分类器,根据每一指标的综合指标向量,确定对应指标是否为待透出的目标指标。

在本发明的一个实施例中,根据文字得到对应的文字向量包括:

将文字的每个词转换为对应的词向量;

基于预设的神经网络,根据词向量得到神经网络的隐藏状态;

根据神经网络的隐藏状态,得到对应文字的文字向量。

在本发明的一个实施例中,根据每一指标的数值得到对应指标的数值向量包括:

对每一指标的数值进行归一化处理;

将每一指标的归一化处理后的数值,映射到预设的向量空间,得到对应指标的数值向量。

在本发明的一个实施例中,待处理数据为结构化数据。

本领域技术人员应当明白,可以通过各种方式来实现文本生成装置6000。例如,可以通过指令配置处理器来实现文本生成装置6000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现文本生成装置6000。例如,可以将文本生成装置6000固化到专用器件(例如ASIC)中。可以将文本生成装置6000分成相互独立的单元,或者可以将它们合并在一起实现。文本生成装置6000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中,文本生成装置6000可以具有多种实现形式,例如,文本生成装置6000可以是任何的提供文本生成服务的软件产品或者应用程序中运行的功能模块,或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等,还可以是这些软件产品或者应用程序本身。

<电子设备>

在本实施例中,还提供一种电子设备1000。该电子设备1000可以是图1所示的服务器1100或如图2所示的终端设备1200。

如图7所示,电子设备1000还可以包括处理器1300和存储器1400,该存储器1400用于存储可执行的指令;该处理器1300用于根据指令的控制运行电子设备1000执行根据本发明任意实施例的文本生成方法。

在本实施例中,该电子设备1000可以是手机、平板电脑、掌上电脑、台式机、笔记本电脑、工作站、游戏机等设备。例如,电子设备1000可以是安装有提供显示服务的应用的智能手机。

<计算机可读存储介质>

在本实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实现如本发明任意实施例的文本生成方法。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于生成海报的方法、装置、电子设备、存储介质及产品

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!