数据处理方法、移动终端及存储介质

文档序号:154802 发布日期:2021-10-26 浏览:30次 >En<

阅读说明:本技术 数据处理方法、移动终端及存储介质 (Data processing method, mobile terminal and storage medium ) 是由 张小龙 于 2021-07-09 设计创作,主要内容包括:本申请公开一种数据处理方法,包括基于移动终端触发音频数据生成指令时,获取所述音频数据生成指令对应的目标文本数据以及与所述目标文本数据关联的初始音频数据;根据所述目标文本数据与所述初始音频数据的关联关系生成所述目标文本数据对应的目标音频数据。本申请还提供一种移动终端和存储介质。本申请实现文本数据和音频数据之间的转换,使得修改后的文本,对应音频数据也随之修改,保持文本数据和音频数据的一致性。(The application discloses a data processing method, which comprises the steps of acquiring target text data corresponding to an audio data generation instruction and initial audio data related to the target text data when the audio data generation instruction is triggered based on a mobile terminal; and generating target audio data corresponding to the target text data according to the incidence relation between the target text data and the initial audio data. The application also provides a mobile terminal and a storage medium. The method and the device realize conversion between the text data and the audio data, so that the modified text and the corresponding audio data are modified, and the consistency of the text data and the audio data is kept.)

数据处理方法、移动终端及存储介质

技术领域

本申请涉及电子技术领域,具体涉及一种数据处理方法、移动终端及存储介质。

背景技术

随着工作和生活节奏的加快,在任何场合下人们都追求高效。如在会议、视频会议或音频会议上逐渐采用音频记录,后期再将音频数据转换成文本,以文本的形式作为会议纪要。然而,在构思及实现本申请过程中,发明人发现至少存在如下问题:音频和文本之间,只能从音频数据转换成文本,对文本修改时,无法修改音频数据,导致音频数据和文本不一致,影响音频数据转文本的使用效果。

前面的叙述在于提供一般的背景信息,并不一定构成现有技术。

发明内容

针对上述技术问题,本申请提供一种数据处理方法、移动终端及存储介质,使得文本和音频数据可相互转换,使得文本修改后,音频数据也能够及时修改。

为解决上述技术问题,本申请提供一种数据处理方法,所述处理方法包括:

基于移动终端触发音频数据生成指令,获取所述音频数据生成指令对应的目标文本数据以及与所述目标文本数据关联的初始音频数据;

根据所述目标文本数据与所述初始音频数据的关联关系生成所述目标文本数据对应的目标音频数据。

可选地,所述目标文本数据为所述初始音频数据关联的初始文本数据经过编辑后的文本数据。

可选地,所述初始音频数据与所述初始文本数据的关联关系基于所述初始音频数据转换成所述初始文本数据时生成。

可选地,所述根据所述目标文本数据与所述初始音频数据的关联关系生成所述目标文本数据对应的目标音频数据的步骤包括:

基于所述目标文本数据与所述初始音频数据的关联关系确定所述初始音频数据中的待编辑音频数据段以及各个所述待编辑音频数据段的编辑类型;

基于所述编辑类型对所述初始音频数据对应的待编辑音频数据段进行编辑,生成所述目标文本数据对应的目标音频数据。

可选地,所述基于所述编辑类型对所述初始音频数据对应的待编辑音频数据段进行编辑,生成所述目标文本数据对应的目标音频数据的步骤包括:

所述编辑类型为删除时,将所述初始音频数据中的所述待编辑音频数据段删除,将删除所述待编辑音频数据段的音频数据进行拼接,以生成所述目标文本数据对应的目标音频数据;或,

所述编辑类型为复制粘贴时,在所述初始音频数据中复制所述待编辑音频数据段,将所述待编辑音频数据段粘贴于所述初始音频数据中,以生成所述目标文本数据对应的目标音频数据;或,

所述编辑类型为移动时,根据所述目标文本数据确定所述待编辑音频数据段的目标位置,所述目标位置包括起始时间点和终点时间点中的至少一个,将所述待编辑音频数据段移动至所述初始音频数据中的所述目标位置处,以生成所述目标文本数据对应的目标音频数据。

本申请还提供一种数据处理方法,所述处理方法包括:

基于移动终端触发文本转换指令,确定初始音频数据;

将所述初始音频数据转换成对应的初始文本数据;

将所述初始文本数据与所述初始音频数据关联保存。

可选地,所述将所述初始文本数据与所述初始音频数据关联保存的步骤包括:

所述初始文本数据中的文本数据段与所述目标音频数据中的音频数据段进行一一对应关联保存。

可选地,所述初始文本数据中的文本数据段与所述目标音频数据中的音频数据段进行一一对应关联保存的步骤包括:

按照所述初始文本数据的生成顺序将所述初始文本划分成至少两个文本段;

按照所述初始音频数据的时间顺序将所述目标音频数据划分成与所述文本段一一对应的音频数据段;

将各个所述文本段和各个所述音频数据段进行一一关联保存。

本申请还提供一种移动终端,所述移动终端包括:存储器、处理器,其中,所述存储器上存储有处理程序,所述处理程序被所述处理器执行时实现如上所述的数据处理方法的各个步骤。

本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理方法的各个步骤。

如上所述,本申请的数据处理方法,能够实现文本数据和音频数据之间的转换,使得修改后的文本,对应音频数据也随之修改,保持文本数据和音频数据的一致性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为实现本申请各个实施例的一种移动终端的硬件结构示意图;

图2为本申请实施例提供的一种通信网络系统架构图;

图3是根据第一实施例示出的数据处理方法的流程示意图;

图4是实现本申请各个实施例的移动终端的录音和音频转换系统结构示意图;

图5是图3中步骤S20的一细化实施例流程示意图;

图6是根据第二实施例示出的数据处理方法的流程示意图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,可选地,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解,尽管在本文可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本文范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语"如果"可以被解释成为"在……时"或"当……时"或"响应于确定"。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。本申请使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的,或意味着任一个或任何组合。例如,“包括以下至少一个:A、B、C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A和B和C”,再如,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A和B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。

应该理解的是,虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

需要说明的是,在本文中,采用了诸如S10、S20等步骤代号,其目的是为了更清楚简要地表述相应内容,不构成顺序上的实质性限制,本领域技术人员在具体实施时,可能会先执行S20后执行S10等,但这些均应在本申请的保护范围之内。

应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或者“单元”可以混合地使用。

移动终端可以以各种形式来实施。例如,本申请中描述的移动终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本申请的实施方式的构造也能够应用于固定类型的终端。

请参阅图1,其为实现本申请各个实施例的一种移动终端的硬件结构示意图,该移动终端100可以包括:RF(Radio Frequency,射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解,图1中示出的移动终端结构并不构成对移动终端的限定,移动终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍:

射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的,将基站的下行信息接收后,给处理器110处理;另外,将上行的数据发送给基站。通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。可选地,射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000,码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access,时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution,频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution,分时双工长期演进)等。

WiFi属于短距离无线传输技术,移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102,但是可以理解的是,其并不属于移动终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105,比如光传感器、运动传感器以及其他传感器。可选地,光传感器包括环境光传感器及接近传感器,可选地,环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度,接近传感器可在移动终端100移动到耳边时,关闭显示面板1061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息,以及产生与移动终端的用户设置以及功能控制有关的键信号输入。可选地,用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作),并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。可选地,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的命令并加以执行。可选地,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071,用户输入单元107还可以包括其他输入设备1072。可选地,其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种,具体此处不做限定。

可选地,触控面板1071可覆盖显示面板1061,当触控面板1071检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中,触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能,但是在某些实施例中,可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能,具体此处不做限定。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区,可选地,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。可选地,存储器109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器109内的软件程序和/或模块,以及调用存储在存储器109内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,可选地,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池),优选的,电源111可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出,移动终端100还可以包括蓝牙模块等,在此不再赘述。

为了便于理解本申请实施例,下面对本申请的移动终端所基于的通信网络系统进行描述。

请参阅图2,图2为本申请实施例提供的一种通信网络系统架构图,该通信网络系统为通用移动通信技术的LTE系统,该LTE系统包括依次通讯连接的UE(User Equipment,用户设备)201,E-UTRAN(Evolved UMTS Terrestrial Radio Access Network,演进式UMTS陆地无线接入网)202,EPC(Evolved Packet Core,演进式分组核心网)203和运营商的IP业务204。

可选地,UE201可以是上述终端100,此处不再赘述。

E-UTRAN202包括eNodeB2021和其它eNodeB2022等。可选地,eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接,eNodeB2021连接到EPC203,eNodeB2021可以提供UE201到EPC203的接入。

EPC203可以包括MME(Mobility Management Entity,移动性管理实体)2031,HSS(Home Subscriber Server,归属用户服务器)2032,其它MME2033,SGW(Serving Gate Way,服务网关)2034,PGW(PDN Gate Way,分组数据网络网关)2035和PCRF(Policy andCharging Rules Function,政策和资费功能实体)2036等。可选地,MME2031是处理UE201和EPC203之间信令的控制节点,提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能,并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送,PGW2035可以提供UE 201的IP地址分配以及其它功能,PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点,它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。

IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem,IP多媒体子系统)或其它IP业务等。

虽然上述以LTE系统为例进行了介绍,但本领域技术人员应当知晓,本申请不仅仅适用于LTE系统,也可以适用于其他无线通信系统,例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等,此处不做限定。

基于上述移动终端硬件结构以及通信网络系统,提出本申请各个实施例。

第一实施例

请参照图3,本申请提供的数据处理方包括以下步骤:

步骤S10,基于移动终端触发音频数据生成指令时,获取所述音频数据生成指令对应的目标文本数据以及与所述目标文本数据关联的初始音频数据;

步骤S20,根据所述目标文本数据与所述初始音频数据的关联关系生成所述目标文本数据对应的目标音频数据。

可选地,所述目标文本数据为所述初始音频数据关联的初始文本数据经过编辑后的文本数据。

本实施例移动终端可以为手机,也可以为掌上电脑,还可以为具有显示屏的录音笔等。

结合参照图4,所述移动终端包括录音模块10、音频数据转换模块20、文本编辑模块60、映射模块30以及音频数据剪辑模块50。

可选地,所述录音模块10的录音界面包括录音控件、播放控件、暂停控件和调节锚点,通过录音控件控制录音,在录音过程中,可以基于暂停控件暂停录音。录音结束后,可基于播放控件播放该录音,在播放过程中,可以基于暂停控件控制录音暂停播放。在播放过程中,可以基于调节锚点调节播放进度。

可选地,所述音频数据转换模块20用于将所录的音频数据转换成文本数据。所述音频数据转换模块20与所述录音模块10连接,以实现所述录音模块10所录的音频数据的传输。所述音频数据转换模块20接收到音频数据后,将所述音频数据转换成文本数据。

可选地,所述映射模块30与所述音频数据转换模块20连接,所述映射模块30用于在音频数据转换成文本数据的过程中,建立所述音频数据与文本数据的映射关系。可选地,所述映射模块30通过将预设长度的音频数据段和文本数据段一一映射的方式来建立音频数据和文本数据的映射关系,可选地,所述映射关系包括内容映射和位置映射,也即所述文本数据中与音频数据中相同内容具有映射关系,和/或同一内容再文本数据中的位置与在音频数据中的位置具有映射关系。可选地,所述预设长度可以为一个或至少两个字符长度,或者所述预设长度基于语句长度确定,如一句音频映射一句文本,或者一段音频映射一段文本。

可选地,所述文本编辑模块60与所述音频数据转换模块20连接,用于对所述文本数据进行编辑。如所述音频数据转换模块20将所录的音频数据转换成文本数据后,用户可以对所述文本数据进行编辑,如删除或调整位置或复制某段文字等,使得文本数据更符合用户的需求,可读性更强。

可选地,所述文档编辑模块支持对文本进行剪切、复制、粘贴、分享操作。

可选地,所述音频数据剪辑模块50用于对所述音频数据进行剪辑。所述音频数据与所述文本编辑模块60连接,所述文本编辑模块60对所述文本数据进行编辑后,将编辑后的目标文本数据传输至所述音频数据剪辑模块50,所述音频数据剪辑模块50根据目标文本数据与初始音频数据的映射关系,对所述初始音频数据进行剪辑,以得到与所述目标文本数据对应的目标音频数据。如此,即使对文本数据进行了修改,也可以使得所述音频数据和文本数据始终一致。

可选地,所述移动终端的音频数据转换模块20将音频数据转换成文本数据后,可基于显示界面显示所转换的所述文本数据对应的文本。用户基于所述文本进行编辑,用户编辑所述文本后,为了使得所述文本数据与所述音频数据一致,可基于显示界面的“生成音频”控件生成编辑后的所述文本数据对应的音频数据。

可选地,本实施例中的文本转换成音频时对数据处理的过程包括但不限于以下一种:

移动终端检测到触发“生成音频”控件时,判定接收到音频数据生成指令,移动终端根据所述音频数据生成指令确定目标文本数据。可选地,每个文本数据的显示界面均有所述“生成音频”控件,移动终端基于触发所述“生成音频”控件,所述控件所在界面中显示的文本数据则为所述目标文本数据。也即本实施例中,“生成音频”控件是与每个文本数据关联的,基于所触发的“生成音频”控件即可获取到关联的目标文本数据。

移动终端确定目标文本数据后,基于文本数据与音频数据的映射关系,调取与所述目标文本数据关联的初始音频数据,然后基于所述目标文本数据与所述初始音频数据的关联关系生成所述目标文本数据对应的目标音频数据。

可选地,所述初始音频数据与所述初始文本数据的关联关系基于所述初始音频数据转换成所述初始文本数据时生成。

可选地,所述关联关系包括初始音频数据与初始文本数据的整体关联,或者所述关联关系包括初始音频数据与初始文本数据中的音频数据段和文本数据段一一关联。可选地,所述初始音频数据可以为录音时生成的音频数据,也可以为前一次编辑文本数据时生成的音频数据,也即在前一次修改的文本数据的基础上再进行修改时,可以基于前一次修改的音频数据来裁剪,以减少需要处理的数据。

可选地,所述基于所述目标文本数据与所述初始音频数据的关联关系生成所述目标文本数据对应的目标音频数据的方式包括但不限于以下方式:

如基于预设的文字与音频的映射关系,提取与所述目标文本数据中的文本对应的音频,按照文字的排列顺序组合所提取的音频,形成所述目标文本数据对应的音频数据,此时根据该音频数据来裁剪所述初始音频数据,以形成目标音频数据。

或者如,基于初始音频数据生成初始文本数据时的关联关系,基于目标文本数据提取对应的音频数据,然后基于所提取的音频数据生成所述目标音频数据。

或者如第二实施例所示的方式。

可选地,所述文本数据中包括文字数据段以及空格数据段,所述文本数据段转换成音频数据段的过程中,包括文本数据段和空格数据段的转换。音频文档的处理过程中,用户经常会有对音频文件的编辑处理需求,比如录音文件中大段的空白和无用信息需要被删减掉,提高音频信息的传达效率。示例性技术中无法对音频数据段进行删除。而本实施例基于文本数据可以转换成音频数据,用户可以先将音频通过音频数据转换模块20处理成文本,对文本中的空白、无用信息进行删除后,再通过文本与音频的映射关系进行音频剪辑,使得音频数据中的空白段减掉,可以极大的提高音频剪辑效率,提升了用户体验。

本实施例中,通过将文本数据和初始音频数据关联,若文本数据有修改,可基于文本数据和初始音频数据的关联关系生成修改后的文本数据对应的目标音频数据。实现文本数据和音频数据之间的转换,使得修改后的文本,对应音频数据也随之修改,保持文本数据和音频数据的一致性。

第二实施例

请参照图5,基于上述实施例提供所述处理方法的第二实施例,所述根据所述目标文本数据与所述初始音频数据的关联关系生成所述目标文本数据对应的目标音频数据的步骤包括:

步骤S21,基于所述目标文本数据与所述初始音频数据的关联关系确定所述初始音频数据中的待编辑音频数据段以及各个所述待编辑音频数据段的编辑类型;

步骤S22,基于所述编辑类型对所述初始音频数据对应的待编辑音频数据段进行编辑,生成所述目标文本数据对应的目标音频数据。

本实施例为根据所述目标文本数据与所述初始音频数据的关联关系生成所述目标文本数据对应的目标音频数据的其中一实施例。在本实施例中,基于初始音频数据转换成初始文本数据时,将音频数据中的预设长度的音频数据段一一对应初始文本数据的文本数据段,如此,在对初始文本数据段进行编辑时,基于音频数据段和文本数据段的关联关系,可以确定被编辑的文本数据段对应的音频数据段,如此,可以对该音频数据段进行编辑,使得文本数据与音频数据同步进行修改。

可选地,所述编辑类型包括但不限于删除、复制粘贴和位置调整等。编辑类型不同时,对应对音频数据的编辑不同。可选地,用户对文本数据的编辑类型与音频数据的编辑类型相同。因此,在生成目标音频数据之前,先获取用户对文本数据进行编辑的文本数据段以及对所述文本数据段的编辑类型,然后在生成目标音频数据时,根据所述文本数据段和音频数据段的映射关系,确定需要进行编辑的待编辑音频数据段,然后采用所述编辑类型编辑所述待编辑音频数据段。基于目标文本数据依次对初始音频数据进行编辑后,拼接形成所述目标音频数据。

可选地,以下基于不同编辑类型对应对所述初始音频数据进行处理的过程进行举例说明:

如一实施例中,所述编辑类型为删除时,所述基于所述编辑类型对所述初始音频数据对应的待编辑音频数据段进行编辑,生成所述目标文本数据对应的目标音频数据的步骤包括:

将所述初始音频数据中的所述待编辑音频数据段删除;

将删除所述待编辑音频数据段的音频数据进行拼接,以生成所述目标文本数据对应的目标音频数据。

如用户在文本数据中的预设位置删除文本数据段后,在目标文本数据生成目标音频数据过程中,初始音频数据中有与被删除文本数据段对应的音频数据。基于此,若检测到目标文本数据段中存在与初始音频数据段没有对应关系的文本数据段时,则确定为被删除文本数据段。

获取所述目标文本数据中的被删除文本数据段,将所述被删除文本数据段对应关联的音频数据段作为所述待编辑音频数据段,然后将该所述待编辑音频数据段删除,删除所述待编辑音频数据段后,将所述待编辑音频数据段前后相邻的音频数据段进行拼接,如此使得音频数据段能够连续连接。

可选地,本实施例将待编辑音频数据段删除后,对剩余音频数据段进行拼接的方式为:基于所述被删除文本数据段与音频数据段的映射关系确定待编辑音频数据段后,获取所述待编辑音频数据段的起点时间和终点时间,调整起点时间与所述待编辑音频数据段的终点时间相同的下一音频数据段的起点时间点,使得该下一音频数据段的起点时间与所述待编辑音频数据的起点时间相同,如此,实现将所述待编辑音频数据段删除后,对其它音频数据进行拼接,形成连续的目标音频数据。

可选地,另一实施例中,所述编辑类型为复制粘贴时,所述基于所述编辑类型对所述初始音频数据对应的待编辑音频数据段进行编辑,生成所述目标文本数据对应的目标音频数据的步骤包括:

在所述初始音频数据中复制所述待编辑音频数据段;

将所述待编辑音频数据段粘贴于所述初始音频数据中,以生成所述目标文本数据对应的目标音频数据。

如用户在文本数据中的预设位置复制粘贴第一文本数据段后,在目标文本数据生成目标音频数据过程中,初始音频数据中并没有与第一文本数据段的位置对应的音频数据段。基于此,若检测初始音频数据中没有与所述第一文本数据段对应的音频数据段时,则判定所述第一文本数据为复制粘贴的文本数据段。

获取所述目标文本数据中与所述第一文本数据段相同的待复制文本数据段,将所述待复制文本数据段对应关联的音频数据段作为所述待编辑音频数据段,然后将该所述待编辑音频数据段粘贴于所述初始音频数据中,使得所述待编辑音频数据与所述第一文本数据段的位置对应,以生成所述目标文本数据对应的目标音频数据。

可选地,所述第一文本数据段为目标文本数据段中的某个文本数据段,如用户将第一行中的第一句话复制粘贴到第三行的首位,则第三行的首位为所述第一文本数据段,第一行中的第一句话为所述待复制文本数据段。

可选地,基于所述待复制文本数据段确定对应关联的待编辑音频数据段,复制该待编辑音频数据段,进而将复制的待编辑音频数据段的起点时间调整后与所述第一文本数据段的位置对应的音频数据段的起点时间,将复制的待编辑音频数据段的终点时间调整为与所述第一文本数据段的位置对应的音频数据段的终点时间,实现将所述待音频数据段复制,并粘贴在对应位置上。

可选地,在又一实施例中,所述编辑类型为移动时,所述基于所述编辑类型对所述初始音频数据对应的待编辑音频数据段进行编辑,生成所述目标文本数据对应的目标音频数据的步骤包括:

根据所述目标文本数据确定所述待编辑音频数据段的目标位置,所述目标位置包括起始时间点和终点时间点中的至少一个;

将所述待编辑音频数据段移动至所述初始音频数据中的所述目标位置处,以生成所述目标文本数据对应的目标音频数据。

如用户在初始文本数据中将第二文本数据段调整到第一文本数据段之前时,形成的目标文本数据中的第二文本数据段的位置与初始文本数据中的位置不同。在目标文本数据生成目标音频数据过程中,目标文本数据中的文本数据段的位置与音频数据中的音频数据段的位置不同,则存在文本数据段与音频数据段的位置映射不匹配。基于此,若检测到目标文本数据段中存在与初始音频数据段的位置对应不匹配的文本数据段时,则确定为被移动文本数据段。

获取所述目标文本数据中的被移动文本数据段,将所述被移动文本数据段对应关联的音频数据段作为所述待编辑音频数据段(内容上关联),基于所述被移动文本数据段在文本数据段中的位置确定所述待编辑音频数据段的目标位置,然后将所述待编辑音频数据段移动至所述目标位置处,所述目标位置处对应的音频数据段以及所述目标位置后的音频数据段对应调整,以形成连续的目标音频数据。

可选地,本实施例中,所述待编辑音频数据段的移动方式包括但不限于以下方式:如将所述被移动文本数据段对应位置的第一音频数据段的起点时间和终点时间作为所述待编辑音频数据段的起点时间和终点时间来调整所述待编辑音频数据段的起点时间和终点时间,然后基于待编辑音频数据段修改后的终点时间来调整所述第一音频数据段的起点时间,进而对应修改所述第一音频数据段的终点时间。对应的,将所述第一音频数据段之后的音频数据段的起点时间和终点时间依次进行修改,直至将所有音频数据段拼接成目标音频数据。

可选地,若用户在初始文本数据中将第二文本数据段和第一文本数据段的位置进行调换时,则在生成目标音频数据时,直接将第二文本数据段映射的待编辑音频数据段的起点时间修改为第一文本数据段映射的待编辑音频数据段的起点时间,对应的第一文本数据段映射的待编辑音频数据段的起点时间修改为第二文本数据段映射的待编辑音频数据段的起点时间;同样的,将第二文本数据段映射的待编辑音频数据段的终点时间修改为第一文本数据段映射的待编辑音频数据段的终点时间,对应的第一文本数据段映射的待编辑音频数据段的终点时间修改为第二文本数据段映射的待编辑音频数据段的终点时间。

本实施例基于文本段和音频段的映射关系,在文本段被调整时,则基于映射关系确定同样被调整的音频段,进而调整该音频段,如此,实现文本数据调整后,对应调整音频数据,实现文本数据更新后,对应的音频数据同步更新,实现方式简单便捷,使得音频数据生成效率高,且直接基于初始音频数据进行删除、复制或位置的调整,可以避免误识别导致的转换错误的情况出现。

可选地,所述编辑类型还包括非音频转换字段的添加。若所述便捷类型为非音频转换字段的添加时,则对应初始音频数据中不存在与所述字段的映射关系,此时,映射该字段对应的音频数据段为空,也即在音频数据中设置于所述字段长度相同的空音频数据段。如此,用户可以基于对文本数据的调整,达到调整音频数据的目标。

可选地,请参照图6,本申请基于上述实施例,还提出数据处理方法的第三实施例,所述处理方法包括:

步骤S110,基于移动终端触发文本转换指令时,确定初始音频数据;

步骤S120,将所述初始音频数据转换成对应的初始文本数据;

步骤S130,将所述初始文本数据与所述初始音频数据关联保存。

本实施例应用于移动终端,结合参照图4,所述移动终端包括录音模块10、音频数据转换模块20以及映射模块30。

可选地,所述录音模块10的录音界面包括录音控件、播放控件、暂停控件和调节锚点,通过录音控件控制录音,在录音过程中,可以基于暂停控件暂停录音。录音结束后,可基于播放控件播放该录音,在播放过程中,可以基于暂停控件控制录音暂停播放。在播放过程中,可以基于调节锚点调节播放进度。

可选地,所述音频数据转换模块20用于将所录的音频数据转换成文本数据。所述音频数据转换模块20与所述录音模块10连接,以实现所述录音模块10所录的音频数据的传输。所述音频数据转换模块20接收到音频数据后,将所述音频数据转换成文本数据。

可选地,所述映射模块30与所述音频数据转换模块20连接,所述映射模块30用于在音频数据转换成文本数据的过程中,建立所述音频数据与文本数据的映射关系。可选地,所述映射模块30通过将预设长度的音频数据段和文本数据段一一映射的方式来建立音频数据和文本数据的映射关系,可选地,所述映射关系包括内容映射和位置映射,也即所述文本数据中与音频数据中相同内容具有映射关系,和/或同一内容再文本数据中的位置与在音频数据中的位置具有映射关系。可选地,所述预设长度可以为一个或至少两个字符长度,或者所述预设长度基于语句长度确定,如一句音频映射一句文本,或者一段音频映射一段文本。

可选地,移动终端的音频数据的播放界面中设有转文本控件,用户触发所述转文本控件时,所述音频数据转换模块20启动,将所述音频数据转换为文本数据。可选地,转换方式可以直接基于音频数据调取对应的文字,形成所述文本数据。

将所述初始音频数据转换成对应的初始文本数据的过程中,启动所述映射模块30,建立所述初始音频数据和所述音频数据之间的映射关系,并保存所述初始文本数据。

可选地,所述将所述初始文本数据与所述初始音频数据关联保存的方式包括所述初始文本数据中的文本数据段与所述目标音频数据中的音频数据段进行一一对应关联保存。

如此,可以在对文本数据进行修改时,基于文本数据段和音频数据段的映射关系,可以将修改后的文本数据对应裁剪所述音频数据,实现文本数据和音频数据之间的转换。

可选地,初始文本数据中的文本数据段与所述目标音频数据中的音频数据段进行一一对应关联保存的步骤包括:

按照所述初始文本数据的生成顺序将所述初始文本划分成至少两个文本段;

按照所述初始音频数据的时间顺序将所述目标音频数据划分成与所述文本段一一对应的音频数据段;

将各个所述文本段和各个所述音频数据段进行一一关联保存。

可选地,划分过程中,可以基于文本数据中的标点符号划分,如一句划分呈一个文本段。或者,也可以基于文本数据中的字符长度划分,如一个字符划分一个文本段。具体的划分方式包括但不限于以上列举的一种或多种。

所述文本数据段与音频数据段进行关联保存后,当初始文本数据被编辑时,基于编辑操作以及每个文本数据段与音频数据段的关联关系,可以对应编辑初始音频数据,具体编辑方式如上述第一至第二实施例所述,在此不一一赘述。

可选地,本实施例中,将所述初始音频数据转换成对应的初始文本数据之前,还可以获取基于用户选择的语言类型,将所述初始音频数据转换成语言类型对应的初始文本数据。比如录音为英文,而用户想转换成中文文本,可则选择语言类型为中文,在音频数据转换过程中,识别音频数据中的语音,然后采用所述语言类型翻译所述语言,形成文本数据。本实施例使得音频数据转换成不同语言类型的文本,丰富文本转换的功能。

可选地,在音频转数据转换文本数据过程中,若音频未成功转化为文本的空白音频片段会被自动删除。

本实施例中,将所述初始音频数据转换成对应的初始文本数据时,将所述初始文本数据与所述初始音频数据关联保存,使得文本数据与音频数据关联,基于该关联关系,实现文本数据编辑后再转换成目标音频数据,实现文本转音频功能。

可选地,基于上述所述移动终端,本实施例提供所述移动终端显示的操作过程:

第一步,录音后,可以点击音频条的播放按钮,开始播放音频;

第二步,拖动锚点,调节播放进度;

第三步,点击转文本按钮,后台通过音频转换模块将音频转换为文本。

第四步,音频转换文本成功后,后台通过文本字段与音频片段映射模块确定文本字段与音频片段的映射关系,以及与文本字段映射的音频片段的起点时间和终点时间。转文本按钮会变为查看文本按钮。

第五步,点击查看文本按钮,进入音频文本页面。用户在前台通过文本编辑模块编辑文本内容。编辑模块支持对文本进行剪切、复制、粘贴、分享操作。

第六步,编辑完成后,点击“生成音频”按钮,根据编辑后的文本字段与音频片段的映射关系生成新的音频文件。

页面出现toast提示“已生成新的音频文件”,并返回上一级页面。

本申请还提供一种移动终端,移动终端包括存储器、处理器,存储器上存储有处理程序,处理程序被处理器执行时实现上述任一实施例中的处理方法的步骤。

本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有处理程序,处理程序被处理器执行时实现上述任一实施例中的处理方法的步骤。

在本申请提供的移动终端和计算机可读存储介质的实施例中,包含了上述处理方法各实施例的全部技术特征,说明书拓展和解释内容与上述方法的各实施例基本相同,在此不做再赘述。

本申请实施例还提供一种计算机程序产品,计算机程序产品包括计算机程序代码,当计算机程序代码在计算机上运行时,使得计算机执行如上各种可能的实施方式中的方法。

本申请实施例还提供一种芯片,包括存储器和处理器,存储器用于存储计算机程序,处理器用于从存储器中调用并运行计算机程序,使得安装有芯片的设备执行如上各种可能的实施方式中的方法。

可以理解,上述场景仅是作为示例,并不构成对于本申请实施例提供的技术方案的应用场景的限定,本申请的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例设备中的单元可以根据实际需要进行合并、划分和删减。

在本申请中,对于相同或相似的术语概念、技术方案和/或应用场景描述,一般只在第一次出现时进行详细描述,后面再重复出现时,为了简洁,一般未再重复阐述,在理解本申请技术方案等内容时,对于在后未详细描述的相同或相似的术语概念、技术方案和/或应用场景描述等,可以参考其之前的相关详细描述。

在本申请中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本申请技术方案的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本申请记载的范围。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络,或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、存储盘、磁带)、光介质(例如,DVD),或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。

以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

21页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语音合成方法、装置、电子设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!