一种结合希尔伯特曲线和集成学习的心电磁信号分类方法

文档序号:592121 发布日期:2021-05-28 浏览:17次 >En<

阅读说明:本技术 一种结合希尔伯特曲线和集成学习的心电磁信号分类方法 (Electrocardiogram and magnetic signal classification method combining Hilbert curve and integrated learning ) 是由 马辛 付幸文 曹一荻 于 2021-01-25 设计创作,主要内容包括:本发明一种结合希尔伯特曲线和集成学习的心电磁信号分类方法,属于心电磁信号分类领域,具有训练简单、分类精度高、检测速度快、适应性好、可靠性高的特点。本发明包括以下步骤:(1)获取心电磁信号并进行预处理再拆分为多段心拍信号;(2)采用希尔伯特曲线将每一段心拍信号填充为图像信号并重整得到数据集;(3)使用EasyEnsemble算法对数据集进行类别平衡;(4)采用集成学习方法以及Stacking结合策略得到分类模型,最后对分类模型进行评估。(The invention discloses an electrocardio-magnetic signal classification method combining Hilbert curve and integrated learning, belongs to the field of electrocardio-magnetic signal classification, and has the characteristics of simplicity in training, high classification precision, high detection speed, good adaptability and high reliability. The invention comprises the following steps: (1) acquiring a heart electromagnetic signal, preprocessing the heart electromagnetic signal and splitting the heart electromagnetic signal into a plurality of sections of heart beat signals; (2) filling each section of heart beat signal into an image signal by using a Hilbert curve and reforming to obtain a data set; (3) carrying out category balance on the data set by using an easy Ensemble algorithm; (4) and obtaining a classification model by adopting an ensemble learning method and a Stacking combination strategy, and finally evaluating the classification model.)

一种结合希尔伯特曲线和集成学习的心电磁信号分类方法

技术领域

本发明涉及到心电磁信号分类领域,具体涉及到一种结合希尔伯特曲线和集成学习的心电磁信号分类方法。

背景技术

根据2016年世界卫生组织(WHO)的一份报告,冠心病又称缺血性心脏病,是世界上主要的死亡原因。世卫组织的研究显示,每年有超过1770万人死于心血管疾病,其中80%是由心脏病引起的。心肌梗死,属于冠心病,是部分或完全阻塞冠状动脉导致心脏血流不足的结果。心肌梗死患者可通过心电图、超声心动图、磁共振成像(MRI)、肌酸激酶MB(CK-MB)、肌钙蛋白和肌红蛋白等心脏生物标志物的变化等方法进行诊断。在实践中,由于心肌梗死的诊断对时效性要求很高,因此有迫切需要的患者,首选的诊断方法是心电图。急救室内一般备有心电图机,如果能准确识别,就能迅速且高度准确地诊断心肌梗死。另外,现阶段心脏磁信号检测设备也在迅速发展,较心脏电信号而言,心脏磁信号由于具备矢量性,因此理论上能够携带更多的信息。部分学者研究发现在心肌梗死等心脏疾病的诊断中心脏磁信号具有较高的特异性和稳定性。尽管目前心脏磁信号在临床使用中还存在一些问题,但不可否认的是其具有许多潜在的临床应用价值。因此基于心电磁信号的心肌梗死疾病的智能化分类在临床医学救治上是一项具有重大意义和前瞻性的工作。

基于心电磁信号的心肌梗死疾病的智能化分类方法主要分为2种。一种是基于特征的经典分类方法,特点是先通过数据预处理进行特征提取,然后再使用一个浅层的分类器对提取得到的特征进行分类。这类方法的特征提取部分与分类部分结构相互独立,只通过特征进行耦合。因此,其整体性能主要取决于特征的优劣,所以该方法过分依赖于特征工程,需要大量的人力,而且受限于人类知识和经验的水平。另外一种是端到端的深层神经网络分类方法,该方法允许将原始信号经过简单的降噪预处理后直接送入神经网络。以神经网络作为分类器的好处在于只需要给它提供训练样本,它就可以自动学习去提取特征并综合特征给出分类结果。由于提取特征是根据训练算法自动进行,这种方法可以避免人类知识和经验水平的限制从而获得更高的准确率。然而现有的深度神经网络对心电磁信号的分类主要存在以下2个问题。一个是由于心电磁信号是典型的时间序列信号,虽然现在深层神经网络在计算机视觉和语言识别上发展得很好,但是遇到时间序列信号时构建分类模型是很难的,原因包括:循环神经网络较难训练,部分计算机视觉方面的研究成果难以运用于时间序列信号。另一个是,心电磁信号数据不可避免的存在类别不平衡问题。目前,国内外一些处理办法主要的有2种,一种是将心电磁信号数据集中的多数类样本和少数类样本直接合并组成训练集对网络进行训练,这样虽然没有浪费数据,但与实际情况相差甚远,导致实验得到的分类模型分类效果很好,可实用价值一般。另一种是对数量较多的心肌梗死的信号进行欠采样再与健康对照的信号合并,这样虽然解决了类别不平衡问题,但浪费了部分心肌梗死信号,造成其部分特征丢失。

发明内容

本发明要解决的技术问题是:克服作为时间序列的心电磁信号分类模型训练困难问题和类别不平衡问题,为心肌梗死实时检测提供一种结合希尔伯特曲线和集成学习的心电磁信号分类方法,该方法获得的分类模型具有训练简单、分类精度高、检测速度快、适应性好、可靠性高的特点。

本发明解决其技术问题所采用的技术方案为:

一种结合希尔伯特曲线和集成学习的心电磁信号分类方法,包括以下步骤:

(1)获取心电磁信号进行预处理后再拆分为多段心拍信号,定长抽样后确定每段心拍信号的类别标记;

(2)采用希尔伯特曲线将每一段心拍信号填充为图像信号并重整得到数据集;

(3)使用EasyEnsemble算法对所述数据集进行类别平衡并拆分,得到多个训练子集以及一个测试集和一个验证集;

(4)采用集成学习方法以及Stacking结合策略,构建分类模型,所述分类模型包括多个初级学习器和一个次级学习器,使用多个训练子集分别对多个初级学习器进行训练,训练完成后,使用测试集测试每个初级学习器,并将得到的预测结果作为次级学习器的输入,以测试集的类别标记作为目标对次级学习器进行训练,结合多个初级学习器和次级学习器得到分类模型,使用验证集评估分类模型,得到分类精度指标。

所述步骤(1)包括:

(11)使用心电磁测量设备获取心电磁信号;

(12)采用滤波算法消除心电磁信号的工频噪声、基线漂移及运动噪声;

(13)采用QRS波形定位算法找到滤波后心电磁信号的每个心拍所在位置并拆分成多段心拍信号;

(14)给多段心拍信号中的每段心拍信号进行定长抽样并确定每段心拍信号类别标记。

所述步骤(12)中,滤波算法采用带通滤波、卡尔曼滤波、高斯滤波中的一种或几种。

所述步骤(13),所述QRS波形定位算法采用差分阈值法、双阈值检测算法、小波变换法中的一种或几种。

所述步骤(2)包括:

(21)对每一个心电磁信号使用步骤(1)进行处理得到多段心拍信号后再采用希尔伯特曲线将每一段心拍信号填充为图像信号;

(22)合并所有的图像信号并重整为一个4维的数据集,每一维度分别代表样本数、通道数、图像信号的长、图像信号的宽。

所述步骤(3)包括:

(31)将从步骤(2)中获得的数据集按照样本数的多少拆分为多数类样本集和少数类样本集;

(32)按照EasyEnsemble算法对多数类样本集进行多次欠采样,同时对少数类样本集进行多次过采样,且每次欠采样和过采样得到的样本个数大致相等,将样本两两合并,得到多个训练子集、未被抽到的样本则拆分为1个验证集和1个测试集。

所述步骤(4)包括:

(41)将从步骤(3)中获得的训练子集分别对多个初级学习器进行训练;

(42)完成对初级学习器的训练之后,使用测试集测试每个初级学习器,按照Stacking结合策略将测试集经过初级学习器得到的输出作为次级学习器的输入,以测试集的类别标记作为学习目标进行训练,完成对次级学习器的训练之后,将多个初级学习器和次级学习器结合作为完整的分类模型;

(43)使用验证集评估分类模型,得到模型分类精度指标,根据模型分类精度指标衡量分类模型的分类效果。

所述步骤(41)和(42)中,所述初级学习器采用二维卷积神经网络(2D-CNN)。

所述步骤(43)中,所述次级学习器为采用BP算法训练的前馈神经网络(FNN)。

本发明的原理是:希尔伯特曲线是一条著名的空间填充曲线,它可以用一条一维曲线遍历二维图像中的每一个像素点,并且保证曲线中相邻的两个点在图像中也是相邻的,而且在曲线的阶数增加时,曲线中每个点的位置在图像中不会发生较大变化。心电磁信号是典型的时间序列信号,如果采用希尔伯特曲线将心电磁信号填充到图像矩阵,就能够将时间序列信号的时间相依性转换为图像信号的位置相依性,而二维卷积神经网络(2D-CNN)对图像的形状位置极为敏感,这样就能在不损失心电磁信号任何信息的前提下,利用现有计算机视觉优势提高分类模型的分类精度和稳定性,降低分类模型的训练难度。另外,EasyEnsemble算法是一种经典的类别不平衡数据建模算法,它将多数类样本随机分成多个子集,每个子集分别与少数类样本合并,得到多个新的数据子集,利用每个数据子集训练一个初级分类器。然后按照Stacking结合策略训练次级分类器,最后将初级分类器和次级分类器结合,得到分类模型。这样就能够在不丢失多数类样本特征的前提下,解决类别不平衡问题,并且进一步提高分类精度和分类模型的适应性。

本发明与现有技术相比的优点在于:

(1)本发明通过希尔伯特曲线将时间序列信号填充为图像信号,再利用现有计算机视觉优势提高了分类模型的分类精度和稳定性,降低了分类模型的训练难度。

(2)本发明通过EasyEnsemble算法和Stacking结合策略在不丢失多数类样本特征的前提下,解决类别不平衡问题,并且进一步提高分类精度和分类模型的适应性。

附图说明

图1是本发明的流程图;

图2是原ECG信号;

图3是预处理后的ECG信号;

图4是心拍信号;

图5是经由希尔伯特曲线填充后的图像信号;

图6是数据集示意图;

图7是EasyEnsemble算法和Stacking结合策略的示意图;

图8是不同阶数的希尔伯特曲线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合说明书附图进一步详细说明本发明的示例性实施方式。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。前述技术方案中所涉及的分类目标可以为心脏电信号(ECG)和心脏磁信号(MCG),以下以ECG信号作为实施例,说明本发明的具体实施过程

如图1所示,本发明方法具体包括以下步骤:

(1)获取ECG信号并进行预处理再拆分为多段心拍信号,定长抽样后确定每段心拍信号的类别标记,具体的包括如下子步骤:

(1-1)从The PTB Diagnostic ECG Database(PTB)数据库中获取原ECG信号,图2显示了4.096秒的原ECG信号,其具体为一种时间序列信号,采样频率为1kHz,包含4096个数据点,以电压幅值表示对应时间的心脏电位变化,并带有一定的工频噪声、基线漂移及运动噪声;

(1-2)采用滤波算法消除ECG信号的工频噪声、基线漂移及运动噪声,其中滤波算法是带通滤波、卡尔曼滤波、高斯滤波中的一种或几种。图3给出了采用5~200HZ的带通滤波器对图2所示的原ECG信号进行滤波后得到的结果,其将原ECG信号的工频噪声、基线漂移及运动噪声抑制在允许范围内。

(1-3)采用QRS波形定位算法找到滤波后ECG信号的每个心拍所在位置并拆分成多段心拍信号,其中所述QRS波形定位算法采用差分阈值法、双阈值检测算法、小波变换法中的一种或几种。图4给出了采用差分阈值法进行QRS定位并拆分得到的心拍信号,每个心拍信号仅包含一次完整的心跳过程,因此时长会随着每一次心跳时间的变化而变化,但采样频率仍然为1kHz。

(1-4)给每段心拍信号进行定长抽样并确定其类别标记,获得的每段心拍有256数据点的固定长度,其中心梗患者标记为1,健康对照标记为0。

(2)采用希尔伯特曲线将每一段心拍信号填充为图像信号并重整得到数据集,具体的包括如下子步骤:

(2-1)对每一个ECG信号使用步骤(1)进行处理得到心拍信号后再采用希尔伯特曲线填充为图像信号,如图5所示,图片具有16×16=256个像素,每一个像素对应心拍信号的每个数据点,颜色越深的像素表示心拍信号在该点处的电压幅值越大,希尔伯特曲线如图8所示,其为图像填充曲线,也是一条递归分型曲线,高一阶的图形由4个低一阶的图形通过旋转再连接得到,1阶希尔伯特曲线是最小单元,其中本实例中采用的是4阶希尔伯特曲线。

(2-2)合并所有的图像信号并重整为一个4维的数据集,如图6所示,每一维度分别代表样本数、通道数、图像信号的长、图像信号的宽,每一个小立方体为一个样本,心肌梗死患者有72人,健康对照有52人,每人含有20个样本,因此数据集共含有2480个样本,每个样本具有12个通道,每个通道为一张图片,该图片具有16×16=256个像素。

(3)使用EasyEnsemble算法对所述数据集进行类别平衡并拆分,得到多个训练子集以及一个测试集和一个验证集,具体的包括如下子步骤:

(3-1)将从步骤(2)中获得的数据集按照样本数的多少拆分为多数类样本集和少数类样本集。

(3-2)按照EasyEnsemble算法对多数类样本集进行5次欠采样,同时对少数类样本集进行5次过采样,且每次欠采样和过采样得到的样本个数大致相等,将样本两两合并,得到5个训练子集、未被抽到的样本则拆分为1个验证集和1个测试集,其中训练子集:测试集:验证集为5:2:3。

(4)采用集成学习方法以及Stacking结合策略,构建分类模型,所述分类模型包括多个初级学习器和一个次级学习器,使用多个训练子集分别对多个初级学习器进行训练,训练完成后,使用测试集测试每个初级学习器,并将得到的预测结果作为次级学习器的输入,以测试集的类别标记作为目标对次级学习器进行训练,结合多个初级学习器和次级学习器得到分类模型,使用验证集评估分类模型,得到分类精度指标,具体的包括如下子步骤:

(4-1)将从步骤(3)中获得的训练子集分别对多个初级学习器进行训练。

(4-2)完成对初级学习器的训练之后,使用测试集测试每个初级学习器,按照Stacking结合策略将测试集经过初级学习器得到的输出作为次级学习器的输入,以测试集的类别标记作为学习目标进行训练,完成对次级学习器的训练之后,将多个初级学习器和次级学习器结合作为完整的分类模型。

其中步骤(4-1)和(4-2)所述初级学习器采用的是二维卷积神经网络(2D-CNN),每个二维卷积神经网络(2D-CNN)的结构一致,均包含3个卷积层、3个池化层、1个全连接层和1个输出层。第1个卷积层具有10个2×2大小的卷积核,第2个卷积层具有20个2×2大小的卷积核,第3个卷积层具有50个2×2大小的卷积核。每个卷积层后面均带有一个2×2的最大池化层。全连接层具有50个神经元,卷积层和全连接层的激活函数均为relu,输出层的激活函数为softmax。优化方法为Adam,采用L2正则化方法,衰减系数为1e-3,学习率为1e-3。所述次级学习器为采用BP算法训练的前馈神经网络(FNN),其包含1个全连接层和1个输出层,全连接层具有25个神经元,激活函数为relu,输出层激活函数为softmax,优化方法为SGD,采用L2正则化方法,衰减系数为1e-5,学习率为1e-2。

(4-3)使用验证集评估分类模型,得到模型分类精度指标,根据模型分类精度指标衡量分类模型的分类效果。

步骤(3)和步骤(4)基于数据流的EasyEnsemble算法和Stacking结合策略的示意图如图7所示。

本发明采用如下指标来评估分类模型的性能,如公式(1),(2),(3)所示,

其中ACC为分类精度,Sn为灵敏度,Sp为特异度,TP、FP、TN、FN分别代表真正例、假正例、真反例、假反例四种情况,分类结果的混淆矩阵如表1所示。

表1分类结果的混淆矩阵

表2本发明的模型指标

表3本领域的模型指标

在验证集上得到的最终结果如表2所示,其中验证集中心肌梗死样本为260个,健康对照样本为240个。从本发明的模型指标上进行比较可以发现,由于集成的分类模型采用恰当的方法融合了所有初级学习器,因此其性能远远优于任何一个初级学习器。另外表3还列举了本领域的部分模型指标,其中需要做特征提取的传统分类模型,虽然分类精度较为理想,但其比较依赖特征工程,受限于人类知识和经验的水平;而属于循环神经网络的长短时记忆网络(LSTM),虽然比较适用于时间序列信号,但是该类模型训练较为困难,难以达到一个较高的分类精度;一维卷积神经网络(1D-CNN)分类精度较差,13层的深层神经网络(DNN)分类精度比较优越,但是模型过于复杂。

基于上述对比,将本发明使用希尔伯特曲线将时间序列信号填充为图像信号,再利用计算机视觉的优势,使得模型的分类精度有了一个很大的提升,网络结构较为简单,便于训练的同时缩短了分类所需时间。本发明采用EasyEnsemble算法对训练数据进行类别平衡以及集成学习和Stacking结合策略使得模型的适应性较强,也进一步提高了整体分类模型的分类精度。在类别不平衡的心电磁信号分类领域有很大的应用意义。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于SERF原子磁强计的心磁三维源位置估计方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!