一种音乐线上教学视频智能推荐方法及系统

文档序号：1861312 发布日期：2021-11-19 浏览：30次 >En<

阅读说明：本技术 一种音乐线上教学视频智能推荐方法及系统 (Intelligent recommendation method and system for music online teaching videos ) 是由张博阳于 2021-07-31 设计创作，主要内容包括：本发明涉及一种音乐线上教学视频智能推荐方法及系统,该方法通过先训练好分别能够对用户气息、音准、节奏进行等级分类的三个神经网络,然后获取用户试唱的某段音频信息,从中提取能够表征用户气息水平和音准水平的窄带语谱图,和表征用户节奏水平的宽带语谱图,将窄带语谱图分别代入对用户气息、音准进行等级分类的两个神经网络,得到用户的气息、节奏等级；将宽带语谱图代入对用户节奏进行等级分类的神经网络,得到用户的节奏等级；最后,匹配最佳推荐的音乐教学视频,即选择与用户的气息等级、音准等级、节奏等级相适应的音乐教学视频,作为最佳推荐的音乐教学视频,推荐给用户,实现了音乐教学视频的智能推荐。(The invention relates to a music online teaching video intelligent recommendation method and a system, the method comprises the steps of training three neural networks which can classify the breath, intonation and rhythm of a user respectively, acquiring a certain section of audio information which is tried to sing by the user, extracting a narrow-band spectrogram which can represent the breath level and intonation level of the user and a wide-band spectrogram which represents the rhythm level of the user from the audio information, and substituting the narrow-band spectrogram into two neural networks which classify the breath and intonation of the user respectively to obtain the breath and rhythm grade of the user; substituting the broadband spectrogram into a neural network for carrying out grade classification on the user rhythm to obtain the rhythm grade of the user; and finally, matching the best recommended music teaching video, namely selecting the music teaching video which is adaptive to the breath level, the intonation level and the rhythm level of the user, serving as the best recommended music teaching video, and recommending the best recommended music teaching video to the user, so that the intelligent recommendation of the music teaching video is realized.)

一种音乐线上教学视频智能推荐方法及系统

技术领域

本发明涉及人工智能及音乐教育技术领域，具体涉及一种音乐线上教学视频智能推荐方法及系统。

背景技术

音乐是用来表达人们思想感情、反映现实生活的一种艺术，音乐活动也是艺术教育中的一部分，随着生活水平的提高，人们越来越重视艺术能力的提升，音乐教育逐渐受到人们的关注。在线上音乐教育领域，一般是学员在注册线上的音乐教学账号后，根据自己感兴趣的课程，或自认为自己适合的课程，选择音乐教学视频，进行学习，这种挑选课程的弊端在于，学员对自己的音乐技能评价太主观，往往挑选的课程不适合自己，或者选定的课程太难，达不到课程学习后的提升效果，或者选择的课程太简单，音乐技能提升速度太慢。无论是哪种情况，课程的学习效果均不佳。

发明内容

本发明的目的在于提供一种音乐线上教学视频智能推荐方法及系统，用于解决由学员的主观感受或兴趣去选择教学视频学习，导致的学习效果不佳的问题。

因此，所采用的技术方案具体如下：

第一方面，本发明提供了一种音乐线上教学视频智能推荐方法，包括：

优选的，步骤S1：根据用户挑选的一段音乐的试唱结果，获得用户的音频信息，根据该音频信息提取用户的气息信息、音准信息和节奏信息；

步骤S2：将用户的气息信息输入已经训练好的第一神经网络中，输出用户的气息信息对应的等级水平，即气息等级；将用户的音准信息输入已经训练好的第二神经网络中，输出用户的音准信息对应的等级水平，即音准等级；将用户的节奏信息输入已经训练好的第三神经网络中，输出用户的节奏信息对应的等级水平，即节奏等级；

步骤S3：匹配最佳推荐的音乐教学视频，选择与用户的气息等级、音准等级、节奏等级相适应的音乐教学视频，作为最佳推荐的音乐教学视频，推荐给用户。

优选的，还包括：根据用户进行试唱的音乐难度等级，确定此段音乐的出错容忍度；根据用户试唱音乐的出错容忍度，对步骤S2中用户的气息等级、音准等级、节奏等级进行调整，调整得到用户的修正气息等级、修正音准等级、修正节奏等级；将各音乐教学视频的设定气息等级、音准等级、节奏等级，与用户的实际气息等级、实际音准等级、实际节奏等级进行比较，将比较差别最小的音乐教学视频作为最佳推荐的教学视频，推荐给用户。

优选的，所述出错容忍度的计算式如下：

其中，R为出错容忍度，n为用户选取歌曲的难度等级，且n为设定值。

优选的，步骤S1中，获得用户的音频信息，根据该音频信息提取用户的气息信息、音准信息和节奏信息包括：将用户的试唱音频转换为语谱图，包括窄带语谱图和宽带语谱图，其中，窄带语谱图用作用户的气息信息、音准信息，宽带语谱图用作用户的节奏信息。

优选的，第一神经网络W₁、第二神经网络W₂和第三神经网络W₃采用相同结构，均为CNN结构，该结构包括编码器和分类器，用户的音频信息输入至编码器，编码器输出特征向量，最后由分类器对特征向量进行分类。

优选的，三个神经网络的训练方式相同，其中任一神经网络的训练过程包括以下步骤：

A)获取训练样本，即神经网络的数据集，若为第一神经网络或第二神经网络，其数据集包括采集到的窄带语谱图I_z以及对应的基础等级标签；若为第三神经网络，其数据集包括宽带语谱图I_k以及对应的基础等级标签；

B)将数据集中每一张语谱图转化为一维的特征向量，即对语谱图灰度处理得到1行n列的灰度值，作为一维特征向量；将所有语谱图的特征向量构成尺寸为[M,w×h]的矩阵，M为当前数据集中语谱图总数，w×h为每张语谱图的尺寸信息；利用数据降维技术将每一个语谱图用二维向量表示；

C)根据语谱图的二维向量，将每一个语谱图映射至构建的二维平面上，二维平面上的每一点均能够对应到数据集中一种类型的语谱图，记为I_z(x,y)，其中x，y表示该语谱图对应的坐标；将对应点的像素值G(x,y)置为语谱图对应的基础等级标签，以构建气息基础等级分布图P₁；

D)根据气息基础等级分布图P₁中各个点的分布情况，将像素值相同的点归为同一个簇内，确定L个簇，L为大于1的整数；进而确定每个簇内的连通域信息S、聚类中心；

E)根据各个簇的聚类中心，确定一个泰森多边形，利用各聚类中心之间连线的垂直平分线，将该泰森多边形划分为L个泰森多边形，每个泰森多边形对应一个簇；

F)根据气息基础等级分布图P₁中每一个簇的均对应一个聚类中心点Z、泰森多边形T以及区域的连通域信息S，计算气息基础等级分布图P₁中各个相邻的两个泰森多边形之间中垂线平移距离之和与中心点间距的比值，作为两个基础等级标签之间的区分度

G)根据各基础等级标签之间的区分度，以及训练过程中每次输入三个训练样本构成的三元组样本[A,P,N]，构建三元组损失函数Loss；

H)将当前批次的训练样本输入至神经网络，进行训练，计算步骤G)中的三元组损失函数，利用梯度下降法，不断更新网络参数，直至完成神经网络的训练。

优选的，步骤C)中，对应点的像素值G(x,y)置为语谱图对应的基础等级标签包括：

计算对应点的像素值G(x,y)，计算公式如下：

其中，d_u为语谱图u对应的基础等级标签；f(X)为四舍五入函数，使得最后得到的像素值为整数，即语谱图对应的基础等级标签；C(x,y)为位置(x,y)对应的语谱图的数量。

优选的，步骤G)中，三元组损失函数的计算公式如下：

其中，Loss为损失函数，n为的三元组样本数量，F(x)为输入训练样本后，网络编码器得到的特征向量；δ为超参数，为固定值；为两个基础等级之间的区分度，为正样本与负样本的基础等级标签数据，三元组样本[A,P,N]中，A代表基准样本，P为与基准样本标签相同的正样本，N为与基准样本标签不同的负样本，+表示对n个[]内的值总和与零进行比较，若该值大于零，则该值不变；若该值小于零，在该值置零。

优选的，所述区分度的计算式如下：

其中，‖Z_iZ_m‖₂为聚类中心点Z_i和Z_m的欧式距离，i≠m，1≤i≤5，1≤m≤5，Q_1,m为类别i与类别m之间的区分度，其取值范围为[0,1]，Δl_i+Δl_m为相邻的两个泰森多边形之间中垂线平移距离之和。

第二方面，本发明提供了一种音乐线上教学视频智能推荐系统，包括：

包括存储器和处理器，以及存储器上并在处理器上运行的计算机程序，处理器与存储器相耦合，处理器在执行计算机程序时实现所述的教学视频智能推荐方法。

本发明具有如下有益效果：

本发明考虑到不同人唱歌水平不同，每个用户唱歌都具有其自身的薄弱项，因此，本发明利用用户的试唱音频，提取能够表征该用户唱歌水平的气息信息、音准信息和节奏信息，并将这些进行分别作为用于气息等级分类的第一神经网络、音准等级分类的第二神经网络、节奏等级分类的第三神经网络的输入，然后输出对该用户在这三方面的等级分类，最后根据用户的三方面等级，为该用户推荐等级匹配的音乐教学视频，从而实现音乐教学视频的智能推荐，代替传统由学员的主观感受或兴趣去选择教学视频学习，达到提升学员的学习效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明实施例1的音乐线上教学视频智能推荐方法流程图；

图2为本发明实施例1的泰森多边形的示意图。

具体实施方式

下面结合附图具体的说明本发明所提供的实施方案。

实施例1：

本发明的一种音乐线上教学视频智能推荐方法，主要目的是如何根据用户的唱歌水平，实现音乐教学视频的智能推荐，该方法的发明构思为：先训练好分别能够对用户气息、音准、节奏进行等级分类的三个神经网络，然后获取用户试唱的某段音频信息，从中提取能够表征用户气息水平和音准水平的窄带语谱图，和表征用户节奏水平的宽带语谱图，将窄带语谱图分别代入对用户气息、音准进行等级分类的两个神经网络，得到用户的气息、节奏等级；将宽带语谱图代入对用户节奏进行等级分类的神经网络，得到用户的节奏等级；最后，匹配最佳推荐的音乐教学视频，即选择与用户的气息等级、音准等级、节奏等级相适应的音乐教学视频，作为最佳推荐的音乐教学视频，推荐给用户即可。

具体的，如图1所示，该方法的具体实现步骤如下：

步骤S1：根据用户挑选的一段音乐的试唱结果，获得用户的音频信息，根据该音频信息提取用户的气息信息、音准信息和节奏信息；根据用户进行试唱的音乐难度等级，确定此段音乐的出错容忍度。

本步骤中，用户的气息信息、音准信息均为用户试唱音频的窄带语谱图，用户的节奏信息为用户试唱音频的宽带语谱图。

用户的试唱音频能够转换为语谱图，需要说明的是，语谱图分为窄带语谱图和宽带语谱图两种，窄带语谱图是利用短时窗较长的窗口对音频信息处理获得，其频率分辨能力强；而宽带语谱图是利用短时窗较短的窗口对音频信息处理获得，其时间分辨能力强。将根据用户的音频信息得到的窄带语谱图和宽带语谱图分别记为I_z,I_k。由于语谱图的获取方法为公知技术，在此本实施例不再赘述。

本步骤中，宽带语谱图是以第一分帧时间(3ms左右)的短时窗进行分帧后得到的语谱图；窄带语谱图是以第二分帧时间(20ms左右)的短时窗进行分帧后得到的语谱图。

本步骤中，用户从系统的数据库种选择一首自己擅长的歌曲进行试唱，数据库中试唱的歌曲难度系数不同，难度系数越大的歌曲其音准、气息和节奏越难控制，因此首先为不同的难度系数的歌曲设置不同的出错容忍度R，难度系数越大其容忍度越大，容忍度的公式为：

其中，n为用户选取歌曲的难度等级，为设定值，容忍度R将用于后续对音乐教学视频推荐的过程中。

步骤S2：将用户的气息信息输入已经训练好的第一神经网络中，输出用户的气息信息对应的等级水平(气息等级)；将用户的音准信息输入已经训练好的第二神经网络中，输出用户的音准信息对应的等级水平(音准等级)；同理，将用户的节奏信息输入已经训练好的第三神经网络中，输出用户的节奏信息对应的等级水平(节奏等级)。

本步骤中，第一神经网络W₁、第二神经网络W₂和第三神经网络W₃采用相同结构，均为CNN结构，该结构包括编码器和分类器(如采用ResNet、SENet结构)，用户的音频信息输入至编码器，编码器输出特征向量，最后由分类器对特征向量进行分类。

本步骤中，对与人的音准和气息而言，主要反应在频率特征上，所以从窄带语谱图I_z作为判断气息等级和音准等级的特征。对于节奏而言，主要反应在音频信息的时间变化特征，所以从宽带语谱图I_k，作为判断节奏等级的特征。

由于三个神经网络的训练相同，本发明以气息基础等级判断神经网络W₁为例，详细介绍网络的训练过程：

A)获取训练样本，即神经网络W₁的数据集，数据集包括采集到的窄带语谱图I_z以及对应的基础等级标签。

本步骤中，基础等级标签是人为设定的，根据窄带语谱图I_z确定相应音准和气息的基础等级标签，根据宽带语谱图I_k确定相应节奏基础等级标签。每一个方面的基础等级分为5个等级，等级越高表示基础越好。至此，可以得到气息、音准、节奏三方面的数据集，其中，气息相关的数据集为神经网络W₁的数据集，音准方面的数据集为神经网络W₂的数据集，节奏方面的数据集为神经网络W₃的数据集。

此处介绍后两个数据集的获取是为了说明用于进行后两个神经网络的训练，可以一次性的获取三个神经网络的数据集，后两个数据集并不参与神经网络W₁的训练。

B)记数据集中窄带语谱图I_z的总数为M，将每一张语谱图转化为一维的特征向量，转化过程为对语谱图灰度处理，按照顺序获取灰度图像中各像素的灰度值，得到1行n列的灰度值，作为一维特征向量。

将所有语谱图的特征向量构成尺寸为[M,w×h]的矩阵，其中M为语谱图的数量，w×h为每张语谱图的尺寸信息，n＝w×h。然后，利用数据降维技术将[M,w×h]的矩阵的维度降至[M,2]，将每一个语谱图用一个2维度的向量表示，即二维向量。本步骤中，数据降维技术为公知技术，可以选用现有的PCA算法或自编码网络实现，在此不再赘述。

本步骤中，数据降维后的各个二维向量分布情况存在一定规律，例如，属于人为标定的同一基础等级标签的二维向量聚集分布。并且，如果将各个语谱图对应的二维向量体现在xy坐标系中，x坐标和y坐标分别对应二维向量中的两个元素，当对语谱图人为标定的基础等级标签的准确度存在一定误差时，则属于人为标定的不同基础等级标签的二维向量可能在xy坐标系的同一点，例如，该点上实际上对应了标记为3的基础等级标签和标记为4的基础等级标签。

C)构建一个二维平面，根据语谱图的二维向量，将每一个语谱图映射至二维平面上，二维平面上的每一点均能够对应到数据集中一种类型的语谱图，记为I_z(x,y)；将对应点的数值(像素值G(x,y))置为语谱图对应的基础等级标签，以构建气息基础等级分布图P₁；

根据上面步骤的记载，由于语谱图对应的基础等级标签为人为标注，在标注过程中难免会存在主观因素过强导致错误标注的情况。所以在获得气息基础等级分布图P₁的过程中，图P₁中每一位置会对应多张语谱图，记位置(x,y)对应的语谱图的数量为C(x,y),则气息基础等级分布图P₁中(x,y)的像素值G(x,y)的计算公式为：

其中，d_u为语谱图u对应的基础等级标签；f(X)为四舍五入函数，使得最后得到的像素值为整数，C(x,y)为位置(x,y)对应的语谱图的数量。对每一个位置对应的语谱图进行相同的处理，得到气息基础等级分布图P₁，图中每一个位置代表一种语谱图I_z(x,y)，对应的像素值为该类语谱图的基础等级。

例如，某一位置(x,y)对应的语谱图的数量为C(x,y)＝2,u＝2，d₁＝3，d₂＝4，则按照上面公式计算得到G(x,y)＝4，则将这两张语谱图的基础等级标签标记为4。

D)对得到的气息基础等级分布图P₁进行分析，像素值相同的点为同一类别，将其归为同一个簇内，共得到5个簇，每一个簇对应一个基础等级，获得每一个簇的连通域信息S(即图2中的S，表示簇内点的集合)；利用同一个簇内所有语谱图对应的样本点的坐标和每一类语谱图的数量信息获得每一个簇的聚类中心，例如，类别1的聚类中心Z₁的计算公式如下：

其中，J₁表示标签类别为1的簇；(x_v,y_v)表示簇J₁内的像素点的位置，C(x_v,y_v)表示数据集中语谱图I_z(x_v,y_v)的数量；Z₁为簇J₁的聚类中心。按照相同的方法获得每一个类别的聚类中心点，记为Z₁,Z₂,Z₃,Z₄,Z₅，五个聚类中心点如图2中的五个圆点所示，其中的数字1～5分别对应五个中心点Z₁,Z₂,Z₃,Z₄,Z₅。

E)根据5个聚类中心点，确定一个泰森多边形，将图P₁划分为5个区域，每一个聚类中心点对应一个泰森多边形。本步骤中，泰森多边形是根据各点之间连线的垂直平分线获得的，在泰森多边形区域内的点到该区域聚类中心点的距离最近，且泰森多变形边上的点到相邻的两个聚类中心点距离相同。如2所示，T表示类别1的聚类中心Z₁的泰森多边形。

F)根据气息基础等级分布图P₁中每一个簇的均对应一个聚类中心点Z、泰森多边形T以及区域的连通域信息S，计算气息基础等级分布图P₁中各个相邻的两个泰森多边形之间中垂线平移距离之和与中心点间距的比值，作为两个类别(即基础等级标签)之间的区分度。

下面以基础等级1为例，具体介绍计算图2中基础等级1分别与相邻基础等级(即基础等级2、3和5)的区分度，过程如下：

1)对基础等级1的簇J₁进行分析，获得泰森多边形T₁的所有边以及每一条边相邻泰森多边形的基础等级标签，为了表述方便，将记泰森多边形T₁的第m条边为B_m，记与该边相邻区域泰森多边形的等级标签为d_m。

2)作边B_m的垂线，将边B_m沿着垂线方向上下平移，当平移后直线与连通域信息S₁或S_m相切时候，分别记录平移的距离Δl₁和Δl_m,则类别1与类别m之间的区分度Q_1,m的计算公式为：

其中，‖Z₁Z_m‖₂为聚类中心点Z₁和Z_m的欧式距离；Q_1,m为类别1与类别m之间的区分度取值范围为[0,1]，数值越大表示两个类别越容易区分。根据图2中所示，m＝2，3，5。

需要说明的是，若两个类别的泰森多边形不相邻，则表示两个类别的区分度为1。按照同样的方法获得所有类别(基础等级标签)之间的区分度。

G)根据各基础等级标签之间的区分度，以及训练过程中每次输入三个训练样本构成的三元组样本[A,P,N]，构建三元组损失函数Loss，利用各基础等级标签之间的区分度，调整训练当前三元组样本时三元组损失函数中的超参数。

上面的三元组样本[A,P,N]中，A代表基准样本，在总样本中随机挑选某一个基础等级标签(1～5)的语谱图；P为与基准样本标签相同的正样本，N为与基准样本标签不同的负样本，三元组样本的获取方法为公知技术，在此不再赘述。

本步骤中，三元组损失函数的计算公式如下：

其中，n为一个批次样本中的三元组样本数量，例如，一共90个样本，分为三个批次，每个批次10组三元组样本，一组三元组样本包含3个样本；F(x)为输入训练样本(三元组样本)后，网络编码器得到的特征向量；δ为超参数，初始值设为1，用于控制基准样本与正样本之间距离和基准样本与负样本之间距离的差异；为正样本与负样本的基础等级标签数据；为两个基础等级之间的区分度，对于每一组样本i，能够求出一个分区度不同样本的区分度不同，通过上面步骤F)计算得到，用于调节超参数δ；+表示对n个[]内的值总和与零进行比较，若该值大于零，则该值不变；若该值小于零，在该值置零。

上面公式中加入区分度的意义在于：相当于给一个变量，来调整超参数的大小，即相当于一个变化的超参数，区分度越大，则表示两个类别不需要过多的训练，就可以得到较好的分类效果，所以使得整体变小，降低网络的训练难度，提升网络训练速度；区分度越小，则表示两个类别的分类效果不好，为了使神经网络更加关注两个类别之间的分类效果，将整体变大，确保区分度较低的基础等级之间分类的准确性。

H)将当前批次的训练样本输入至神经网络，进行训练，计算步骤G)中的三元组损失函数，利用梯度下降法，不断更新网络参数，完成神经网络W₁的训练。

步骤S3：根据步骤S1中用户试唱音乐的出错容忍度，对步骤S2中用户的气息等级、音准等级、节奏等级进行调整，调整得到用户的修正气息等级、修正音准等级、修正节奏等级；将各音乐教学视频的设定气息等级、音准等级、节奏等级，与用户的实际气息等级、实际音准等级、实际节奏等级进行比较，将比较差别最小的音乐教学视频作为最佳推荐的教学视频，推荐给该用户。

具体过程为：

(1)按照上面步骤S1中采集到的用户音频信息转换为窄带语谱图和宽带语谱图，输入至神经网络W₁,W₂,W₃，得到用户在气息、音准、节奏三个方面的基础等级，即用户的气息等级、音准等级、节奏等级，得到用户的特征向量H，该特征向量为1行3列的特征向量。

(2)获得音乐教学视频的等级标签，包括此音乐教学视频的气息等级、音准等级、节奏等级。本步骤中，音乐教学视频的等级标签的确定步骤如下：

人为的为网上现有的音乐教学视频从气息、音准、节奏三个方面的最适宜的基础等级进行投票，投票的人员为音乐专业人员，每一个视频获得不同方面适宜等级的众数作为最终的等级标签，获得每一个音乐线上视频的特征向量SP，也是1行3列的特征向量。

(3)考虑到用户试唱的歌曲难度等级不同，根据步骤S1获得的出错容忍度R，修正最佳匹配结果，完成音乐线上视频的智能推荐，修正公式如下：

min{|∑_i,j((1+R)H_(i,j)-SP_(i,j))|}

其中，H_(i,j)表示用户的特征向量，特征矩阵H中i行j列数值，i＝1,j＝1,2,3，SP_(i,j)表示某个音乐教学视频的特征向量，∑_i,j((1+R)H_(i,j)-SP_(i,j))表示对三组等级之差进行求和，得到总体差异值，如果有k个待选择的音乐教学视频，则一共有k组总体差异值，min表示在k组总体差异值中取最小，即最小总体差异值对应的音乐教学视频为最佳推荐的教学视频，因此，根据目标函数即可得到最优的匹配结果，完成音乐线上教学视频的推荐。

实施例2：

本实施例提出一种音乐线上教学视频智能推荐方法，与实施例1的不同之处，在于无需计算用户试唱音乐的出错容忍度，不需要修正步骤S2中用户的气息等级、音准等级、节奏等级，直接用步骤S2中用户的气息等级、音准等级、节奏等级与各个待选择的音乐教学视频的等级进行比较，也能给出比较合理的视频推荐结果。

实施例3：

本实施例提出一种音乐线上教学视频智能推荐系统，包括存储器和处理器，以及存储器上并在处理器上运行的计算机程序，处理器与存储器相耦合，处理器在执行计算机程序时实现实施例1中的教学视频智能推荐方法。

需要说明的是：以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

13页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：基于视频数据的结构化数据提取方法及装置

一种音乐线上教学视频智能推荐方法及系统

相关技术

网友询问留言