音频混音方法、装置、介质以及电子设备

文档序号：617688 发布日期：2021-05-07 浏览：28次 >En<

阅读说明：本技术 音频混音方法、装置、介质以及电子设备 (Audio mixing method, device, medium and electronic equipment ) 是由李炎于 2021-01-27 设计创作，主要内容包括：本公开提供了一种音频混音方法、装置、介质以及电子设备。该方法包括：对行程起始点和行程终止点进行导航行程处理得到预计到达时间和导航诱导音频；其中,导航诱导音频包括至少两个转向播报音频；对预计到达时间进行行程时长计算得到预测行程时长,并对至少两个转向播报音频之间的区间路段长度进行区间时长计算得到区间行程时长；按照预测行程时长在音频对象集合中进行对象提取处理得到候选音频,并获取候选音频的音频播放时长；根据区间行程时长和音频播放时长对候选音频和至少两个转向播报音频进行音频混音处理得到混音播放音频。本公开保障了音频混音处理的准确性,同时兼顾了候选音频的播报体验和用户导航信息的准确性。(The disclosure provides an audio mixing method, an audio mixing device, an audio mixing medium and an electronic device. The method comprises the following steps: navigation travel processing is carried out on the travel starting point and the travel ending point to obtain predicted arrival time and navigation induction audio; the navigation guidance audio comprises at least two steering broadcast audio; calculating the travel time of the estimated arrival time to obtain a predicted travel time, and calculating the interval time of the interval section length between at least two turn-to-broadcast audios to obtain an interval travel time; performing object extraction processing in the audio object set according to the predicted travel time length to obtain candidate audio, and acquiring the audio playing time length of the candidate audio; and carrying out audio mixing processing on the candidate audios and the at least two steering broadcast audios according to the interval travel time length and the audio playing time length to obtain mixed playing audios. The method and the device ensure the accuracy of audio mixing processing, and simultaneously give consideration to the broadcasting experience of the candidate audio and the accuracy of the user navigation information.)

音频混音方法、装置、介质以及电子设备

技术领域

本公开涉及音频处理技术领域，具体而言，涉及一种音频混音方法、音频混音装置、计算机可读介质以及电子设备。

背景技术

导航以及听音乐或书籍等其他音频是用户在驾驶过程中的高频使用场景。而同时播放导航音频和其他音频能够满足收听导航诱导播报和其他音频的需求。

但是这种方式不仅由于频繁提示导航诱导播报，降低了其他音频的播放质感，也会使得导航诱导播报被其他音频干扰，导致用户偏航绕路。

鉴于此，本领域亟需开发一种新的音频混音方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的技术背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种音频混音方法、音频混音装置、计算机可读介质以及电子设备，进而至少在一定程度上克服导航诱导播报被干扰和其他音频播放质感降低的技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面，提供一种音频混音方法，该方法包括：对行程起始点和行程终止点进行导航行程处理得到预计到达时间和导航诱导音频；其中，所述导航诱导音频包括至少两个转向播报音频；

对所述预计到达时间进行行程时长计算得到预测行程时长，并对所述至少两个转向播报音频之间的区间路段长度进行区间时长计算得到区间行程时长；

按照所述预测行程时长在音频对象集合中进行对象提取处理得到候选音频，并获取所述候选音频的音频播放时长；

根据所述区间行程时长和所述音频播放时长对所述候选音频和所述至少两个转向播报音频进行音频混音处理得到混音播放音频。

根据本公开实施例的一个方面，提供一种音频混音装置，该装置包括：行程处理模块，被配置为对行程起始点和行程终止点进行导航行程处理得到预计到达时间和导航诱导音频；其中，所述导航诱导音频包括至少两个转向播报音频；

时长计算模块，被配置为对所述预计到达时间进行行程时长计算得到预测行程时长，并对所述至少两个转向播报音频之间的区间路段长度进行区间时长计算得到区间行程时长；

音频提取模块，被配置为按照所述预测行程时长在音频对象集合中进行对象提取处理得到候选音频，并获取所述候选音频的音频播放时长；

音频混音模块，被配置为根据所述区间行程时长和所述音频播放时长对所述候选音频和所述至少两个转向播报音频进行音频混音处理得到混音播放音频。

在本公开的一些实施例中，基于以上技术方案，所述音频混音模块，包括：时长比较子模块，被配置为对所述区间行程时长和所述音频播放时长进行时长比较得到时长比较结果；

比较结果子模块，被配置为基于所述时长比较结果，对所述候选音频和所述至少两个转向播报音频进行音频混音处理得到混音播放音频。

在本公开的一些实施例中，基于以上技术方案，所述比较结果子模块，包括：标识获取单元，被配置为获取所述候选音频的音频标识，并获取与至少两个转向播报音频对应的转向起点坐标；

标识添加单元，被配置为按照所述转向起点坐标对所述音频标识进行标识添加处理得到混音播放音频。

在本公开的一些实施例中，基于以上技术方案，所述音频混音装置，还包括：音频合并模块，被配置为对所述至少两个路况提示音频进行音频合并处理得到路况合并音频；

音频调整模块，被配置为对所述路况合并音频与所述混音播放音频进行音频调整处理得到路况导航音频。

在本公开的一些实施例中，基于以上技术方案，所述行程处理模块，包括：吸附处理子模块，被配置为对行程起始点和行程终止点分别进行坐标吸附处理得到行程起点坐标和行程终点坐标；

路线规划子模块，被配置为对所述行程起点坐标和所述行程终点坐标进行路线规划处理得到目标导航路线和所述目标导航路线的预计到达时间；

诱导语音子模块，被配置为对所述目标导航路线进行诱导语音处理得到导航诱导音频。

在本公开的一些实施例中，基于以上技术方案，所述路线规划子模块，包括：行程导航单元，被配置为对所述行程起点坐标和所述行程终点坐标进行路线规划处理得到至少两条行程导航路线；

事件预测单元，被配置为对所述至少两条行程导航路线分别进行时间预测处理得到至少两条行程导航路线的至少两个预计到达时间；

路线排序单元，被配置为对所述至少两条行程导航路线进行路线排序处理得到目标导航路线，并在所述至少两个预计到达时间中确定所述目标导航路线的预计到达时间。

在本公开的一些实施例中，基于以上技术方案，所述时长计算模块，包括：速度获取子模块，被配置为获取至少两个转向播报音频之间的区间路线长度，并获取当前行驶速度；

区间时长子模块，被配置为对所述区间路线长度和所述当前行驶速度进行区间时长计算得到区间行程时长。

根据本公开实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的音频混音方法。

根据本公开实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的音频混音方法。

在本公开实施例提供的技术方案中，一方面，以区间行程时长和音频播放时长作为音频混音处理的判断条件，提供了音频混音处理的前置判断逻辑，保障了音频混音处理的准确性；另一方面，对候选音频和转向播报音频进行音频混音处理，提升了候选音频的播放体验，也避免了转向播报音频这一关键性诱导播报被干扰的情况发生，同时兼顾了候选音频的播报体验和用户导航信息的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性地示出了应用本公开技术方案的示例性系统的架构示意图；

图2示意性地示出了本公开的一些实施例中一种音频混音方法的步骤流程图；

图3示意性地示出了在本公开的一些实施例中导航行程处理的方法的步骤流程图；

图4示意性地示出了在本公开的一些实施例中路线规划处理的方法的步骤流程图；

图5示意性地示出了在本公开的一些实施例中区间时长计算的方法的步骤流程图；

图6示意性地示出了在本公开的一些实施例中音频混音处理的方法的步骤流程图；

图7示意性地示出了在本公开的一些实施例中进一步音频混音处理的方法的步骤流程图；

图8示意性地示出了在本公开的一些实施例中音频调整处理的方法的步骤流程图；

图9示意性地示出了在本公开的一些实施例在应用场景下音频混音处理方法的系统架构示意图；

图10示意性地示出了在本公开的一些实施例中在应用场景下的授权界面的界面示意图；

图11示意性地示出了在本公开的一些实施例中在应用场景下一种播放混音播放音频的界面示意图；

图12示意性地示出了在本公开的一些实施例中在应用场景下另一种播放混音播放音频的界面示意图；

图13示意性地示出了在本公开一些实施例中的一种音频混音装置的结构框图；

图14示意性地示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本领域的相关技术中，导航和收听其他音频是用户在驾驶过程中的高频使用场景。例如，用户在导航过程中听音乐，或者是在导航过程中听书等。而导航和听其他音频的共同特点是都占用了用户的听觉通道。其中，导航具有工具属性，听歌或听书具有娱乐属性，而且导航和收听其他音频都是用户在驾车过程中具有高度黏性的重要场景。但是，导航和收听其他音频对声音通道的占用是有冲突的。

目前，一般通过操作系统对导航音频和其他音频进行混音处理，使得导航诱导播报和歌曲等其他音频同时占用声音通道，继而满足导航诱导播报和歌曲等其他音频结合播放的需求。

但是，这种混音方案会频繁提示导航诱导播报，降低了音乐等其他音频的播放质感，导致音乐等其他音频的体验感下降；另一方面，重要的导航诱导播报可能会由于音乐等其他音频的干扰而被用户忽略，导致用户偏航绕路，影响用户在导航需求上的体验。

基于以上方案存在的问题，本公开提供了一种基于云技术的音频混音方法、音频混音装置、计算机可读介质以及电子设备。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

其中，云计算(cloud computing)指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

利用云技术的音频混音方法提供了音频混音处理的前置判断逻辑，保障了音频混音处理的准确性，提升了候选音频的播放体验，也避免了转向播报音频这一关键性诱导播报被干扰的情况发生，同时兼顾了候选音频的播报体验和用户导航信息的准确性。

图1示出了应用本公开技术方案的示例性系统架构示意图。

如图1所示，系统架构100可以包括终端110、网络120、服务器端130。其中，终端110和服务器端130通过网络120连接。

终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。网络120可以是能够在终端110和服务器端130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路、无线通信链路或者光纤电缆等等，本申请在此不做限制。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

具体地，服务器端130可以对行程起始点和行程终止点进行导航行程处理得到预计到达时间和导航诱导音频，其中，导航诱导音频包括至少两个转向播报音频。然后，对预计到达时间进行行程时长计算得到预测行程时长，并对至少两个转向播报音频之间的区间路段长度进行区间时长计算得到区间行程时长。进一步的，按照预测行程时长在音频对象集合中进行对象提取处理得到候选音频，并获取到候选音频的音频播放时长。最后，根据区间行程时长和音频播放时长对候选音频和至少两个转向播报音频进行音频混音处理得到混音播放音频。

另外，本公开实施例中的音频混音方法可以应用于终端，也可以应用于服务器端，本公开对此不做特殊限定。

本公开实施例主要以音频混音方法应用于服务器端130来举例说明。

下面结合具体实施方式对本公开提供的音频混音方法、音频混音装置、计算机可读介质以及电子设备做出详细说明。

图2示意性地示出了本公开的一些实施例中音频混音方法的步骤流程图，如图2所示，音频混音方法主要可以包括以下步骤：

步骤S210.对行程起始点和行程终止点进行导航行程处理得到预计到达时间和导航诱导音频；其中，导航诱导音频包括至少两个转向播报音频。

步骤S220.对预计到达时间进行行程时长计算得到预测行程时长，并对至少两个转向播报音频之间的区间路段长度进行区间时长计算得到区间行程时长。

步骤S230.按照预测行程时长在音频对象集合中进行对象提取处理得到候选音频，并获取候选音频的音频播放时长。

步骤S240.根据区间行程时长和音频播放时长对候选音频和至少两个转向播报音频进行音频混音处理得到混音播放音频。

在本公开的示例性实施例中，一方面，以区间行程时长和音频播放时长作为音频混音处理的判断条件，提供了音频混音处理的前置判断逻辑，保障了音频混音处理的准确性；另一方面，对候选音频和转向播报音频进行音频混音处理，提升了候选音频的播放体验，也避免了转向播报音频这一关键性诱导播报被干扰的情况发生，同时兼顾了候选音频的播报体验和用户导航信息的准确性。

下面对音频混音方法的各个步骤进行详细说明。

在步骤S210中，对行程起始点和行程终止点进行导航行程处理得到预计到达时间和导航诱导音频；其中，导航诱导音频包括至少两个转向播报音频。

在本公开的示例性实施例中，行程起始点

和行程终止点分别为用户开始行程的起点和到达目的地的地理位置信息。

其中，行程起始点可以是对终端进行定位得到的。该终端中可以安装有定位模组，通过该定位模组对当前所处的位置进行定位得到行程起始点。除此之外，行程起始点也可以是由用户在路线规划界面输入的。路线规划界面中包括起点输入框，用户可以在起点输入框键入行程起始点。进一步的，路线规划界面中包括电子地图，用户可以在该电子地图中选择一个位置作为行程起始点。

行程终止点可以是由用户输入的。在路线规划界面中还包括终点输入框，用户可以在该终点输入框键入行程终止点。并且，由于路线规划界面中包括电子地图，用户也可以在该电子地图中选择另一位置作为行程终止点。除此之外，用户还可以发出语音信息，以根据该语音信息确定行程终止点。

在确定行程起始点和行程终止点之后，可以对该行程起始点和行程终止点进行导航行程处理得到预计到达时间和导航诱导音频。

在可选的实施例中，图3示出了导航行程处理方法的步骤流程图，如图3所示，该方法至少包括以下步骤：在步骤S310中，对行程起始点和行程终止点分别进行坐标吸附处理得到行程起点坐标和行程终点坐标。

在导航行程处理过程中，可以利用路网拓扑结构确定目标导航路线。路网拓扑结构可以采用节点(Node)和连接(Link)的点线结构来描述。其中，节点用于表示地理空间中的路口，节点对应有唯一的节点标识。连接用于表示地理空间中的道路，连接也对应有唯一的连接标识。

对行程起始点和行程终止点进行坐标吸附处理可以是将行程起始点和行程终止点映射到路网拓扑结构中，以根据对应的连接标识确定出对应的两个连接。进一步的，将两个连接在路网拓扑结构中的坐标位置分别作为行程起点坐标和行程终点坐标。亦即，坐标吸附处理可以将行程起始点和行程终止点字符到用户所在的真实的行程起点坐标和行程终点坐标。该行程起点坐标和行程终点坐标可以以经纬度的形式表示。

在步骤S320中，对行程起点坐标和行程终点坐标进行路线规划处理得到目标导航路线和目标导航路线的预计到达时间。

在可选的实施例中，图4示出了路线规划处理的方法的步骤流程图，如图4所示，该方法至少包括以下步骤：在步骤S410中，对行程起点坐标和行程终点坐标进行路线规划处理得到至少两条行程导航路线。

由于路网拓扑结构中记录了节点和连接之间的一个或者多个路线，因此可以在路网拓扑结构中查询到行程起点坐标和行程终点坐标之间的多条行程导航路线。

该行程导航路线可以采用一个集合来表示，该集合中包括从行程起点坐标到行程终点坐标的节点标识和/或连接标识。其中，每条行程导航路线可以仅采用行程起点坐标到行程终点坐标之间的连接标识来进行说明。另外，每个连接的形态信息可以采用形状点序列来表示，形状点用于表示地理空间中的通过一经纬度坐标来表示的位置。除此之外，当一条连接所包括的形状点数量较多时，还可以对一条连接所包括的形状点序列进行抽稀处理，以使得该连接所包括的形状点较为稀疏。

在步骤S420中，对至少两条行程导航路线分别进行时间预测处理得到至少两条行程导航路线的至少两个预计到达时间。

对至少两条行程导航路线进行时间预测处理时，可以利用回归模型建模得到的ETA(Estimated Time of Arrival，预计到达时间)模型实现，该ETA模型可以考虑到包括路线的物理属性，例如路线的长度、宽度和道路等级等，以及路线的历史挖掘速度和路线的实时速度等特征。除此之外，也可以利用其他机器学习算法实现，本示例性实施例对此不做特殊限定。在对至少两条行程导航路线分别进行时间预测处理之后，可以得到这两条行程导航路线分别对应的预计到达时间。

在步骤S430中，对至少两条行程导航路线进行路线排序处理得到目标导航路线，并在至少两个预计到达时间中确定目标导航路线的预计到达时间。

为从至少两条行程导航路线中选择中更适合用户的目标导航路线，可以对行程导航路线进行路线排序处理。具体的，该路线排序处理方式可以是对行程导航路线的路线长度进行排序，也可以是对行程导航路线的拥堵程度进行排序，还可以是对行程导航路线中的路线等级进行排序，也可以是其他排序标准，本示例性实施例对此不做特殊限定。

在得到目标导航路线之后，可以从至少两个预计到达时间中选择出与该目标导航路线对应的预计到达时间。

在本示例性实施例中，对行程起点坐标和行程终点坐标进行路线规划处理，可以得到目标导航路线以及对应的预计到达时间，为后续的音频混音过程提供了数据基础。

在步骤S330中，对目标导航路线进行诱导语音处理得到导航诱导音频。

在得到目标导航路线之后，可以生成与该目标导航路线对应的导航诱导音频。

其中，诱导(Guidance)指的是在基于GPS(Global Positioning System，全球定位系统)的导航软件中，根据GPS和电子地图的地图数据，以语言和图形的形式，用程序生成的指示用户如何沿规划路线行进的信息。

值得说明的是，导航诱导音频中包括至少两个转向播报音频和至少两个路况提示音频。其中，转向播报音频是用来提醒用户的转向提示音频，路况提示音频包括路况播报音频和其他提示性信息的音频。

在本示例性实施例中，对行程起始点和行程终止点进行导航行程处理得到预计到达时间和导航诱导音频，为用户精准确定行程路线。

在步骤S220中，对预计到达时间进行行程时长计算得到预测行程时长，并对至少两个转向播报音频之间的区间路段长度进行区间时长计算得到区间行程时长。

在本公开的示例性实施例中，为对预计到达时间进行行程时长计算，可以获取到当前时间。进一步的，对预计到达时间和当前时间做包括减法运算的行程时长计算得到预测行程时长。

进一步的，对至少两个转向播报音频之间的区间路段长度进行区间时长计算得到区间行程时长。

在可选的实施例中，图5示出了区间时长计算方法的步骤流程图，如图5所示，该方法至少包括以下步骤：在步骤S510中，获取至少两个转向播报音频之间的区间路线长度，并获取当前行驶速度。

其中，当前行驶速度可以是在车辆上获得的，也可以是根据用户的步行习惯等计算处理的，本示例性实施例对此不做特殊限定。

在步骤S520中，对区间路线长度和当前行驶速度进行区间时长计算得到区间行程时长。

具体的，对区间路线长度和当前行驶速度进行区间时长计算可以是对区间路线长度和当前行驶速度进行除法计算得到区间行程时长。

在本示例性实施例中，通过区间时长计算可以确定至少两个转向播报音频之间的区间行程时长，为精准混音方法提供了时长参数，保障了音频混音效果。

在步骤S230中，按照预测行程时长在音频对象集合中进行对象提取处理得到候选音频，并获取候选音频的音频播放时长。

在本公开的示例性实施例中，该音频对象集合可以是根据用户的音频播放列表和相关音频推荐生成的待播放音频集合。其中，待播放音频可以是歌曲，也可以是书籍等音频，本示例性实施例对此不做特殊限定。

在得到音频对象集合之后，可以按照预测行程时长在音频对象集合中进行对象提取处理，亦即从音频对象集合中选择音频对象的累计播放时长不超过预测行程时长的候选音频。

进一步的，获取候选音频的音频播放时长。该音频播放时长可以表征各个候选音频的播放时长。

在步骤S240中，根据区间行程时长和音频播放时长对候选音频和至少两个转向播报音频进行音频混音处理得到混音播放音频。

在本公开的示例性实施例中，在得到区间行程时长和音频播放时长之后，可以进一步对候选音频和至少两个转向播报音频进行音频混音处理。

在可选的实施例中，图6示出了音频混音处理方法的步骤流程图，如图6所示，该方法至少包括以下步骤：在步骤S610中，对区间行程时长和音频播放时长进行时长比较得到时长比较结果。

具体的，可以将区间行程时长与音频播放时长的数值进行大小比较，以确定音频播放时长是否小于或等于区间行程时长。

在步骤S620中，基于时长比较结果，对候选音频和至少两个转向播报音频进行音频混音处理得到混音播放音频。

当音频播放时长小于或等于区间行程时长时，表明可以将该音频播放时长对应的候选音频与该至少两个转向播报音频进行音频混音处理。

在可选的实施例中，图7示出了进一步音频混音处理的方法的步骤流程图，如图7所示，该方法至少包括以下步骤：在步骤S710中，获取候选音频的音频标识，并获取与至少两个转向播报音频对应的转向起点坐标。

该音频标识可以是唯一标识该候选音频的标识信息，例如候选音频的ID(Identity document)。

与至少两个转向播报音频对应的转向起点坐标可以是两两确定两个转向播报音频中的前一个转向播报音频为转向起点的播报音频，并确定该转向起点的播报音频在目标导航路线上的坐标作为转向起点坐标。

在步骤S720中，按照转向起点坐标对音频标识进行标识添加处理得到混音播放音频。

在确定转向起点坐标和音频标识之后，可以在转向起点坐标处插入该音频标识，以实现在播放完此处的转向播报音频之后，播放该音频标识代表的候选音频。

在本示例性实施例中，对候选音频和至少两个转向播报音频进行音频混音处理得到混音播放音频，从而兼顾了候选音频的播放体验和用户导航信息的准确性。

在这一音频混音处理过程中，完成了将候选音频插入转向播报音频这一关键性诱导播报的混音效果。但是，在实际应用场景中，导航诱导音频中并不仅仅包括转向播报音频，还包括路况播报音频和其他提示性信息的音频，因此，还可以对路况播报音频和其他提示性信息的音频进行后续音频处理得到更为符合实际情况的处理音频。

在可选的实施例中，导航诱导音频还包括至少两个路况提示音频，图8示出了音频调整处理的方法的步骤流程图，如图8所示，该方法至少包括以下步骤：在步骤S810中，对至少两个路况提示音频进行音频合并处理得到路况合并音频。

路况提示音频包括路况播报音频和其他提示性信息的音频。其中，路况播报音频包括前方路况拥堵等，其他提示性信息的音频包括注意前方落石或者前方100米处有摄像头等。

为了避免在候选音频播放过程中要播放路况提示音频，因此，也可以将路况提示音频调整到转向播报音频的播放处。

具体的，以一预设范围获取到至少两个路况提示音频，该预设范围可以是50米，也可以是其他距离范围。该至少两个路况提示音频，例如可以是前方10米处有摄像头，前方50米处有摄像头等。进一步的，将这至少两个路况提示音频进行音频合并处理得到路况合并音频，例如前方50米内有2个摄像头。

其中，该预设范围可以是至少两个转向播报音频之间的区间路段程度，也可以是根据实际需求设定或计算出的，本示例性实施例对此不做特殊限定。

在步骤S820中，对路况合并音频与混音播放音频进行音频调整处理得到路况导航音频。

在得到路况合并音频和混音播放音频之后，可以将该路况合并音频的播放位置调整到混音播放音频中的候选音频的音频标识后面，以实现在播放完转向播报音频之后确定播放候选音频，并在确定播放候选音频之后播放路况合并音频。

在本示例性实施例中，对至少两个路况提示音频进行音频合并处理和音频调整处理，可以同时兼顾播放路况提示音频，保证了导航诱导播报的效果。

下面结合一具体应用场景对本公开实施例中提供的音频混音方法做出详细说明。

图9示出了应用场景下音频混音方法的系统架构示意图，如图9所示，该系统架构中包括客户端、音乐开发应用程序接口、诱导引擎、导航接入层和诱导云播服务。

在步骤S910中，打开手机地图。

具体的，用户打开地图应用程序的客户端进入导航模式。

在步骤S920中，请求音乐授权。

在用户界面点击授权按钮，请求音乐开发应用程序接口(ApplicationProgramming Interface，简称API)获取用户鉴权。该音乐开发应用程序可以是任意一款音乐播放器。音乐播放器包括但不限于手机端或者车机端的前装和后装的音乐播放软件。

图10示出了应用场景下的授权界面的界面示意图，如图10所示，在地图应用程序的客户端界面上会显示一音乐播放应用程序的授权界面，可以通过点击“去授权”这一控件请求音乐开发应用程序接口进行用户授权。

在步骤S930中，返回鉴权句柄。

当用户携带客户端标识或者是终端标识请求音乐开发应用程序接口，且鉴权通过时，音乐开发应用程序接口会返回一鉴权通过的标识信息作为授权信息，以便于候选获取用户的收藏列表和相关推荐内容等数据。

在步骤S940中，开始导航。

用户点击地图应用程序中的开始导航按钮，以进入导航。其中，导航的行程起始点可以是对终端进行定位得到的。该终端中安装有定位模组，通过该定位模组对当前所处的位置进行定位得到行程起始点。除此之外，行程起始点也可以是由用户在路线规划界面输入的。路线规划界面中包括起点输入框，用户可以在起点输入框键入行程起始点。进一步的，路线规划界面中包括电子地图，用户可以在该电子地图中选择一个位置作为行程起始点。

导航的行程终止点可以是由用户输入的。在路线规划界面中还包括终点输入框，用户可以在该终点输入框键入行程终止点。并且，由于路线规划界面中包括电子地图，用户也可以在该电子地图中选择另一位置作为行程终止点。除此之外，用户还可以发出语音信息，以根据该语音信息确定行程终止点。

在步骤S950中，初始化诱导引擎。

客户端初始化诱导引擎可以进行为地图应用程序申请内存等初始化过程。

在步骤S960中，请求导航诱导包。

客户端向地图应用程序的服务端发起导航请求，并在该导航请求中携带授权信息。地图应用程序的服务端通过导航接入层依次调用坐标吸附服务、路线规划服务、ETA服务、路线排序服务和诱导语音服务得到预计到达时间和导航诱导音频。

具体的，在导航行程处理过程中，可以利用路网拓扑结构确定目标导航路线。路网拓扑结构可以采用节点和连接的点线结构来描述。其中，节点用于表示地理空间中的路口，节点对应有唯一的节点标识。连接用于表示地理空间中的道路，连接也对应有唯一的连接标识。

对至少两条行程导航路线进行时间预测处理时，可以利用回归模型建模得到的ETA模型实现，该ETA模型可以考虑到包括路线的物理属性，例如路线的长度、宽度和道路等级等，以及路线的历史挖掘速度和路线的实时速度等特征。除此之外，也可以利用其他机器学习算法实现，本示例性实施例对此不做特殊限定。在对至少两条行程导航路线分别进行时间预测处理之后，可以得到这两条行程导航路线分别对应的预计到达时间。

在得到目标导航路线之后，可以从至少两个预计到达时间中选择出与该目标导航路线对应的预计到达时间。

在得到目标导航路线之后，可以生成与该目标导航路线对应的导航诱导音频。导航诱导音频中包括至少两个转向播报音频和至少两个路况提示音频。其中，转向播报音频是用来提醒用户的转向提示音频，路况提示音频包括路况播报音频和其他提示性信息的音频。

在步骤S970中，请求诱导包。

诱导云播服务接收到导航接入层的诱导包请求。

其中，诱导包是指后台服务通过互联网络传输到移动端的，用于支撑导航诱导功能的数据包，是导航功能的核心数据单元模块。

在步骤S980中，获取用户播放列表。

诱导云播服务根据授权信息请求音乐开发平台获取用户的播放列表。

进一步的，为对预计到达时间进行行程时长计算，可以获取到当前时间。对预计到达时间和当前时间做包括减法运算的行程时长计算得到预测行程时长。

然后，按照预测行程时长在音频对象集合中进行对象提取处理得到候选音频。该音频对象集合可以是根据用户的音频播放列表和相关音频推荐生成的待播放音频集合。其中，待播放音频可以是歌曲，也可以是书籍等音频，本示例性实施例对此不做特殊限定。亦即，对候选音频和至少两个转向播报音频的音频混音处理广泛适用于导航诱导播报和其他有音频输出的应用程序并存的场景，该应用程序可以是音乐播放应用程序，也可以是听书类的应用程序，本示例性实施例对此不做特殊限定。

在得到音频对象集合之后，可以按照预测行程时长在音频对象集合中进行对象提取处理，亦即从音频对象集合中选择不超过预测行程时长的候选音频。

根据导航诱导音频的协议包CarRouteRsp(协议包名称)对至少两个转向播报音频之间的区间路段长度进行区间时长计算得到区间行程时长。具体的，获取至少两个转向播报音频之间的区间路线长度，并获取当前行驶速度。并且，对区间路线长度和当前行驶速度进行区间时长计算得到区间行程时长。

进一步的，获取候选音频的音频播放时长。该音频播放时长可以表征各个候选音频的播放时长。然后，可以将区间行程时长与音频播放时长的数值进行大小比较，以确定音频播放时长是否小于或等于区间行程时长。当音频播放时长小于或等于区间行程时长时，表明可以将该音频播放时长对应的候选音频与该至少两个转向播报音频进行音频混音处理。

获取候选音频的音频标识，并获取与至少两个转向播报音频对应的转向起点坐标，以按照转向起点坐标对音频标识进行标识添加处理得到混音播放音频。在确定转向起点坐标和音频标识之后，可以在转向起点坐标处插入该音频标识，以实现在播放完此处的转向播报音频之后，播放该音频标识代表的候选音频。

除此之外，还可以获取到导航诱导音频中的至少两个路况提示音频。对至少两个路况提示音频进行音频合并处理得到路况合并音频，并对路况合并音频与混音播放音频进行音频调整处理得到路况导航音频。

在步骤S990中，将混合播报导航包返回给客户端。

该混合播报导航包中保存有混音播放音频或路况导航音频。客户端对该混合播报导航包进行解析处理，可以在遇到候选音乐的音乐标识时播放对应的候选音乐。由于已经实现了对转向播报音频的避让处理，因此也不会干扰到正常的转向播报音频的播放。

图11示出了应用场景下一种播放混音播放音频的界面示意图，如图11所示，该播放混音播放音频的界面可以是竖屏的。将用户界面分为显示地图应用程序的界面和播放音乐应用程序的界面两部分，且播放音乐应用程序的界面在地图应用程序的界面的下侧。

图12示出了应用场景下另一种播放混音播放音频的界面的示意图，如图12所示，该播放混音播放音频的界面可以是横屏的。将用户界面分为显示地图应用程序的界面和播放音乐应用程序的界面两部分，且播放音乐应用程序的界面在地图应用程序的界面的左侧。

值得说明的是，图11和图12中的界面还可以是播放路况导航音频的，可以根据实际情况播放和设定，本示例性实施例对此不做特殊限定。

基于以上应用场景可知，本公开实施例提供的音频混音方法，一方面，以区间行程时长和音频播放时长作为音频混音处理的判断条件，提供了音频混音处理的前置判断逻辑，保障了音频混音处理的准确性；另一方面，对候选音频和转向播报音频进行音频混音处理，提升了候选音频的播放体验，也避免了转向播报音频这一关键性诱导播报被干扰的情况发生，同时兼顾了候选音频的播报体验和用户导航信息的准确性。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本公开的装置实施例，可以用于执行本公开上述实施例中的音频混音方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的音频混音方法的实施例。

图13示意性地示出了在本公开一些实施例中的一种音频混音装置的结构框图，如图13所示，音频混音装置1300主要可以包括：行程处理模块1310、时长计算模块1320、音频提取模块1330和音频混音模块1340。

行程处理模块1310，被配置为对行程起始点和行程终止点进行导航行程处理得到预计到达时间和导航诱导音频；其中，导航诱导音频包括至少两个转向播报音频；时长计算模块1320，被配置为对预计到达时间进行行程时长计算得到预测行程时长，并对至少两个转向播报音频之间的区间路段长度进行区间时长计算得到区间行程时长；音频提取模块1330，被配置为按照预测行程时长在音频对象集合中进行对象提取处理得到候选音频，并获取候选音频的音频播放时长；音频混音模块1340，被配置为根据区间行程时长和音频播放时长对候选音频和至少两个转向播报音频进行音频混音处理得到混音播放音频。

在本公开的一些实施例中，音频混音模块，包括：时长比较子模块，被配置为对区间行程时长和音频播放时长进行时长比较得到时长比较结果；

比较结果子模块，被配置为基于时长比较结果，对候选音频和至少两个转向播报音频进行音频混音处理得到混音播放音频。

在本公开的一些实施例中，比较结果子模块，包括：标识获取单元，被配置为获取候选音频的音频标识，并获取与至少两个转向播报音频对应的转向起点坐标；

标识添加单元，被配置为按照转向起点坐标对音频标识进行标识添加处理得到混音播放音频。

在本公开的一些实施例中，音频混音装置，还包括：音频合并模块，被配置为对至少两个路况提示音频进行音频合并处理得到路况合并音频；

音频调整模块，被配置为对路况合并音频与混音播放音频进行音频调整处理得到路况导航音频。

在本公开的一些实施例中，行程处理模块，包括：吸附处理子模块，被配置为对行程起始点和行程终止点分别进行坐标吸附处理得到行程起点坐标和行程终点坐标；

路线规划子模块，被配置为对行程起点坐标和行程终点坐标进行路线规划处理得到目标导航路线和目标导航路线的预计到达时间；

诱导语音子模块，被配置为对目标导航路线进行诱导语音处理得到导航诱导音频。

在本公开的一些实施例中，路线规划子模块，包括：行程导航单元，被配置为对行程起点坐标和行程终点坐标进行路线规划处理得到至少两条行程导航路线；

事件预测单元，被配置为对至少两条行程导航路线分别进行时间预测处理得到至少两条行程导航路线的至少两个预计到达时间；

路线排序单元，被配置为对至少两条行程导航路线进行路线排序处理得到目标导航路线，并在至少两个预计到达时间中确定目标导航路线的预计到达时间。

在本公开的一些实施例中，时长计算模块，包括：速度获取子模块，被配置为获取至少两个转向播报音频之间的区间路线长度，并获取当前行驶速度；

区间时长子模块，被配置为对区间路线长度和当前行驶速度进行区间时长计算得到区间行程时长。

本公开各实施例中提供的音频混音装置的具体细节已经在对应的方法实施例中进行了详细的描述，因此此处不再赘述。

图14示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图14示出的电子设备的计算机系统1400仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图14所示，计算机系统1400包括中央处理单元(Central Processing Unit，CPU)1401，其可以根据存储在只读存储器(Read-Only Memory，ROM)1402中的程序或者从储存部分1408加载到随机访问存储器(Random Access Memory，RAM)1403中的程序而执行各种适当的动作和处理。在RAM 1403中，还存储有系统操作所需的各种程序和数据。CPU1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(Input/Output，I/O)接口1405也连接至总线1404。

以下部件连接至I/O接口1405：包括键盘、鼠标等的输入部分1406；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1407；包括硬盘等的储存部分1408；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1410上，以便于从其上读出的计算机程序根据需要被安装入储存部分1408。

特别地，根据本公开的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1409从网络上被下载和安装，和/或从可拆卸介质1411被安装。在该计算机程序被中央处理单元(CPU)1401执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

26页详细技术资料下载

音频混音方法、装置、介质以及电子设备

相关技术

网友询问留言