一种基于相关性分析的病毒扩散与气候因素关系分析方法

文档序号:1906620 发布日期:2021-11-30 浏览:15次 >En<

阅读说明:本技术 一种基于相关性分析的病毒扩散与气候因素关系分析方法 (Correlation analysis-based virus diffusion and climate factor relationship analysis method ) 是由 林绍福 付钰 赵俊杰 于 2021-08-01 设计创作,主要内容包括:本发明公开了一种基于相关性分析的病毒扩散与气候因素关系分析方法,利用多元线性回归方法开展一系列验证,建立多元回归方程;利用Pearson相关系数评定各个气候因素对新增确诊人数影响的相对重要性以及各个自变量与因变量之间的相关系数,寻找其中的线性关系,判定各观测变量之间的相关性。利用修正决定系数对病毒气候因素关系模型进行效能判定,明确各个国家的多元线性回归模型与真实数据的拟合程度。本发明依托此模型预测得到新增确诊人数可以指导各国家做出不同严格等级的防控举措。此外,可以给全球的国家提出气候因素防控建议,通过针对温度、湿度等适宜病毒生存的因素来采取积极措施进行防控。(The invention discloses a correlation analysis-based virus diffusion and climate factor relationship analysis method, which utilizes a multiple linear regression method to carry out a series of verification and establish a multiple regression equation; and evaluating the relative importance of each climate factor on the influence of the newly-added confirmed people and the correlation coefficient between each independent variable and each dependent variable by using the Pearson correlation coefficient, searching the linear relation in the correlation coefficient, and judging the correlation between each observation variable. And (4) carrying out efficiency judgment on the virus climate factor relation model by using the correction decision coefficient, and determining the fitting degree of the multiple linear regression model and the real data of each country. The invention can guide each country to take prevention and control measures of different strict grades by means of newly increased diagnosed number obtained by prediction of the model. In addition, a climate factor prevention and control suggestion can be provided for countries around the world, and active measures can be taken to prevent and control the virus by aiming at factors such as temperature, humidity and the like which are suitable for virus survival.)

一种基于相关性分析的病毒扩散与气候因素关系分析方法

技术领域

本发明属于数据处理领域,涉及多元线性回归模型技术,具体运用多元线性回归模型分析病毒扩散与气候因素之间的关系。

背景技术

病毒地爆发会影响到全世界人民的生活,分析病毒传播规律,支撑病毒防控措施实施具有迫切需求和重要意义。本文运用多元线性回归模型分析病毒扩散与气候因素之间的关系。基于约翰·霍普金斯大学系统科学与工程中心(CSSE)公布的Novel Coronavirus2019time series data on cases数据集和天气网、中国气象数据网的天气数据进行相关性分析。

多元线性回归模型适用于多变量影响单变量的情况,能够准确地计量各个变量之间的相关程度与回归拟合程度,提升预测模型效果。在本研究中气象因素从多方面对病毒扩散具有影响,需要分析多种气象因素与病毒扩散之间的相关程度,因此本研究选取多元线性回归模型进行分析。

目前针对病毒扩散与气候因素已经有了一部分研究,如Zhu等人通过搜集南美四个国家中八个严重受病毒影响地区的每日新增病例数及其相应气候因素数据,利用多元线性回归模型证实了绝对湿度与每日新增病例之间具有高度显著相关性。David等人提出应用广义加法模型(GAM)探索巴西州首府城市年平均温度补偿与确诊病例之间的线性和非线性关系,发现温度每升高1℃,每日累计确诊病例数就会降低4.8951%。Kuldeep等人使用了Sen's Slope和Man-Kendall检验和回归的广义加法模型(GAM)来检测印度国家内部每日温度和相对湿度对发病率的影响。Lowen,Barreca和等多项研究指出,环境温度对病毒的生存和传播具有重要作用。

大量研究同时支持环境温度和湿度在传播和感染中的作用,上述研究所选择样本均局限于局部地区,从而促使本研究探究在全球范围内环境因素对病毒的影响,通过全球范围数据,研究病毒的共性,无疑是更加贴近病毒的真实特性。

发明内容

基于上述分析,本发明主要采用了多元线性回归分析方法进行各地区每日新增人数与该地区气候因素之间的关系分析。整体方法主要包括两个部分:模型构建以及相关系数分析。本发明希望通过相关系数分析能够指导了解病毒特性以便及时控制病毒传播。

为了实现上述目的,本发明采用以下技术方案:为了更好地实现整个方法,选择Python作为方法编写语言。数据处理阶段使用Pandas实现数据集清洗、数据集划分,模型的搭建与训练主要使用Sklearn进行实现。首先利用多元线性回归方法开展一系列验证,建立多元回归方程;利用Pearson相关系数评定各个气候因素对新增确诊人数影响的相对重要性以及各个自变量与因变量之间的相关系数,寻找其中的线性关系,判定各观测变量之间的相关性。利用修正决定系数对病毒气候因素关系模型进行效能判定,明确各个国家的多元线性回归模型与真实数据的拟合程度。

一种基于相关性分析的病毒扩散与气候因素关系分析方法,主要包括:

步骤1、数据来源及实验对象:

病毒相关数据来源于约翰·霍普金斯大学系统科学与工程中心公布有关病毒的确诊人数公开数据集以及中国气象数据网搜集的全球各地气象站每日记录数据。选取3月22日起至6月22日期间全球累计确诊人数超过10000的65个国家作为研究对象。

步骤2、数据收集及预处理:

采集的病毒数据是各国家每日累计确诊人数,通过各国家每日与前一日累计确诊人数相减得到各国新增确诊新冠人数。选取各国家月平均高温、月平均低温、海平面压力、海拔、风速、降雨量、露点温度和相对湿度为各项气候因素数据。对于缺失的某日气候因素数据,采用前后两天数据取均值进行填充。连续日期缺失的气候因素数据用0填充,防止影响实验结果。将数据按照7:3的比例划分为训练集和测试集。

步骤3、构建多元线性回归模型:

以新增确诊人数(New)作为因变量y,各项气候因素包括:平均高温(t_max)、月平均低温(t_min)、海平面压力(S_P)、风速(W_S)、海拔(EI)、降雨量(RF)、露点温度(DP)和相对湿度(Humidity)分别为自变量x1、x2、x3、x4、x5、x6、x7、x8。β0、β1、β2、β3、β4、β5、β6、β7、β8为对应自变量的未知参数;ε称为误差项。多元线性回归模型公式如式1所示:

y=β01x12x23x34x45x56x67x78x8+ε (1)

式1表示新增确诊人数为各气候因素的加权和,后续通过线性回归方法对各气候因素权重进行估计。

步骤4、训练多元线性回归模型:

由于数据样本数较小,为确保在具有足够数据进行模型训练的前提下保留一定数据进行测试,本实验选取70%的观测数据作为训练集,即3月22日至5月8日期间的每日新增确诊人数与八类气候因素数据为训练数据。将训练集输入到编写好的程序中,通过运行得到65个国家多元线性回归系数,从而获得经过训练的模型。

步骤5、模型校验:

通过将测试集气候因素数据输入所构建的多元线性回归模型取得每日新增确诊人数预测值,采用修正决定系数进行模型性能判定。通过残差平方和除以其自由度、总离差平方和除以其自由度的方法,抑制变量数目对决定系数的影响。计算公式如式2所示:

式2中修正决定系数越接近1代表对于变量之间的关系拟合程度越高,模型效果越准确。考虑当决定系数大于0.5时表示模型具有较好的拟合效果。

步骤6、计算自变量与因变量的相关系数:

利用Pearson相关系数R来描述两组不同数据之间的相关性,不同的两组数据之间发展趋势呈现弱相关性时,0≤|R|<0.3;当不同的两组数据之间呈现中等相关性时,0.3≤|R|<0.6;当不同的两组数据之间发展趋势呈现高度相关性时,0.6≤|R|≤1。计算公式如式3所示:

通过皮尔森相关系数公式计算出不同地区各气候因素与每日新增确诊人数之间相关系数,为各国新增确诊人数与各个气候因素参数的相关性强弱分析提供数据支撑。

本发明的创造性主要体现在:

针对目前病毒传播与气候因素的研究还停留于分析个别气候因素,多种类型气候因素对病毒传播的影响还不明确。本发明运用多元线性回归模型分析65个国家的病毒传播与8个气候因素之间的关系。通过皮尔森相关系数得出与新增确诊人数相关性较强的气候因素。采用了修正决定系数对模型性能进行了校验,样本中三分之二国家的多元线性回归模型的修正决定系数大于0.5,具有较好的拟合效果。将测试集中的气候因素参数输入模型,预测得到的新增确诊人数比较符合实际数据。而且预测新增病例数只与当天参数有关,相比于直接进行长序列预测,有效避免了误差传递的发生。

本发明得出病毒与温度和适度具有较高的相关性,可为全球国家在病毒防控方面提供数据以支撑决策。依托此模型预测得到新增确诊人数可以指导各国家做出不同严格等级的防控举措。此外,可以给全球的国家提出气候因素防控建议,通过针对温度、湿度等适宜病毒生存的因素来采取积极措施进行防控。

附图说明

图1是本发明的基于相关性分析的病毒扩散与气候因素关系研究方法整体结构图。

图2是本发明的部分测试数据与模型预测数据对比图。

图3是本发明的部分气候因素与新增确诊人数相关性图。

具体实施方式

以下结合具体实施例,并参照附图,对本发明进一步详细说明。

本发明提供一种基于相关性分析的病毒扩散与气候因素关系的模型,具体包括以下步骤:

本发明所用到的硬件设备有PC机1台、NVIDIA GTX1650显卡1个;

步骤1、数据收集:

将约翰·霍普金斯大学系统科学与工程中心公布有关病毒的确诊人数公开数据集下载并保存。从中国气象数据网搜集并下载全球各地气象站每日记录数据。

步骤2、数据预处理:

采集得到的病毒数据是各国家每日累计确诊人数,通过各国家每日与前一日累计确诊人数相减得到各国新增确诊人数。选取各国家月平均高温、月平均低温、海平面压力、海拔、风速、降雨量、露点温度和相对湿度为各项气候因素数据。对于缺失的某日气候因素数据,采用前后两天数据取均值进行填充。连续日期缺失的气候因素数据用0填充,防止影响实验结果。

步骤3、数据集划分与训练模型:

将数据集以7:3的比例划分为训练集与测试集。即每个国家的3月22日至5月8日期间的数据为训练集,5月9日至6月22日的数据为测试集。

使用Python语言搭建线性回归模型,并将训练集输入到模型中,经过训练后得到截距与线性回归系数,构建完成多元线性回归模型。通过测试集合检验当前模型对于数据的表达能力。

步骤4、模型校验:

通过将测试集气候因素数据输入所构建的多元线性回归模型取得每日新增确诊人数预测值,调用多元线性回归模型的score方法获得65个模型的修正决定系数,修正决定系数大于0.5的模型认定为拟合效果较好,选取拟好效果较好的模型进行自变量与因变量相关系数的计算。

步骤5、计算自变量与因变量相关性系数:

通过Pearson相关系数公式计算不同国家各气候因素与每日新增确诊人数之间相关系数,将每个国家在3月22日至6月22日期间的新增确诊人数与八项气候因素参数计算相关系数,获得每个国家任意两个观测变量之间的相关系数矩阵。

以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于卷积神经网络的染色体重要特征可视化方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!