基于无监督学习的硬件木马检测系统和信息数据处理方法

文档序号：153430 发布日期：2021-10-26 浏览：33次 >En<

阅读说明：本技术 基于无监督学习的硬件木马检测系统和信息数据处理方法 (Hardware Trojan horse detection system based on unsupervised learning and information data processing method ) 是由史江义张焱李康潘伟涛董勐王杰温聪陈嘉伟于 2021-06-15 设计创作，主要内容包括：本发明属于硬件安全技术领域,公开了一种基于无监督学习的硬件木马检测系统和信息数据处理方法,通过分析电路结构和木马电路运行逻辑,提出木马检测需要的特征；结合随机森林、相关性矩阵和平行坐标图分析特征的重要程度,对特征进行筛选,得到最佳特征集；采用主成分分析PCA方法对高维数据特征进行降维；采用降维后的数据训练Isolation Forest无监督模型,得到最佳训练模型；采用测试数据进行测试,根据测试结果计算准确度等参数,评估模型。本发明在减少数据维度的同时保留了数据的绝大部分信息,有效提高准确度,减少训练时间,同时使用无监督学习的方法,解决硬件木马检测领域标签值不易获得甚至无法获得的难题。(The invention belongs to the technical field of hardware safety, and discloses a hardware Trojan horse detection system based on unsupervised learning and an information data processing method, wherein characteristics required by Trojan horse detection are provided by analyzing a circuit structure and a Trojan horse circuit operation logic; analyzing the importance degree of the features by combining a random forest, a correlation matrix and a parallel coordinate graph, and screening the features to obtain an optimal feature set; reducing the dimension of the high-dimensional data features by adopting a Principal Component Analysis (PCA) method; training an Isolation Forest unsupervised model by using the data after dimensionality reduction to obtain an optimal training model; and testing by adopting the test data, calculating parameters such as accuracy and the like according to the test result, and evaluating the model. The invention retains most information of data while reducing data dimension, effectively improves accuracy, reduces training time, and solves the problem that label value is difficult to obtain or even can not be obtained in the hardware Trojan horse detection field by using an unsupervised learning method.)

技术领域

本发明属于硬件安全技术领域，尤其涉及一种基于无监督学习的硬件木马检测系统和信息数据处理方法。

背景技术

目前，随着当今信息化社会的高速发展以及人工智能技术加速应用，人们对集成电路芯片的需求正日益剧增。但由于芯片设计制造环节过于复杂，芯片厂商无法对每个环节实现完全自主可控，这就为某些攻击者对集成电路实施恶意修改和破坏提供了可能。这种由攻击者蓄意制造并插入到芯片中，使芯片功能或性能发生改变并在某些情况特殊条件下触发的缺陷模块称为硬件木马。硬件木马会给芯片安全带来极大的潜在威胁，引起了人们对集成电路的完整性和安全性的严重担忧。

通常，硬件特洛伊木马不包含任何状态信息。恶意攻击者完全控制他们的硬件木马触发器，并植入了各种类型的硬件木马，这是传统的验证技术很难检测到的。此外，流通中的SoC是一个由多个第三方IP核组成的复杂异构系统，由于硬件木马的小尺寸和隐蔽性，第三方IP核中的木马检测技术很难完全区分木马网络，有些木马甚至需要手动分析。一些恶意第三方供应商甚至串通联合制造硬件木马以逃避检测。因此，如何设计安全可靠的SoC安全策略和木马检测技术是摆在研究人员面前的重要课题。

虽然现有的基于机器学习理论的方法都有较好的性能，但它们基本都属于有监督的学习方法，都有一个关键的前提，那就是大量的已知信息。此外，监督学习方法的训练过程往往很耗时，通常需要大量平衡的训练数据。而无监督学习，即异常检测模型，目的为检测出样本中行为与其他样本相差很大的异常样本，十分适合用于硬件木马检测。此外，由于用于木马检测的电路特征多为高维数据，对算法复杂度、模型训练时间以及检测精度等都有较大影响。因此，亟需一种新的硬件木马检测方法。

通过上述分析，现有技术存在的问题及缺陷为：

(1)硬件特洛伊木马不包含任何状态信息，恶意攻击者完全控制硬件木马触发器，并植入各种类型的硬件木马，这是传统的验证技术很难检测到的。

(2)流通中的SoC是一个由多个第三方IP核组成的复杂异构系统，由于硬件木马的小尺寸和隐蔽性，第三方IP核中的木马检测技术很难完全区分木马网络，一些恶意第三方供应商甚至串通联合制造硬件木马以逃避检测。

(3)现有的基于机器学习理论的方法都属于有监督的学习方法，需要大量已知信息；监督学习方法的训练过程很耗时，通常需要大量平衡的训练数据。且用于木马检测的电路特征多为高维数据，对算法复杂度、模型训练时间以及检测精度等都有较大影响。

解决以上问题及缺陷的难度为：

1.基于电路特征、木马触发逻辑和负载电路功能进行分析，结合传统机器学习的电路特征，提出能有效检测出木马电路的电路特征。

2.结合特征分析和筛选方法，提取出能高效检测木马的最佳特征集。

3.对高维电路特征进行处理，在降低特征维数的同时保留绝大部分数据信息。

4.构建无监督学习模型，在不需要标签信息和大量平衡数据的前提下训练模型，使用训练好的模型对木马电路进行检测。

解决以上问题及缺陷的意义为：

(1)改进以往基于静态特征对硬件木马进行检测时所选取的特征，基于木马行为和电路结构提出能高效检测出硬件木马的电路特征，为后续的相关研究开创新思路。

(2)提供了一种分析并提取特征的方法，从大量特征中提取出对解决问题最有效的特征，为研究电路特征相关性和相似性分析的相关研究提供了参考。

(3)提供了一种特征降维方法，有效降低特征维数并保留99％以上的数据信息，解决了以往机器学习方法由于电路特征维度过高造成的算法复杂度高、检测时间长、检测精度不佳等问题。

(4)将无监督模型应用到木马检测中，该方法无需大量的标签信息和平衡的数据，解决了当前木马信息和正常电路信息严重失衡以及硬件木马检测领域标签值不易获得甚至无法获得的难题，为后续的硬件安全领域的相关研究提供了新方向。

发明内容

针对现有技术存在的问题，本发明提供了一种基于无监督学习的硬件木马检测系统和信息数据处理方法，尤其涉及一种基于无监督学习的硬件木马检测系统和信息数据处理方法。

本发明是这样实现的，一种基于无监督学习的硬件木马检测系统和信息数据处理方法，所述基于无监督学习的硬件木马检测系统和信息数据处理方法，包括：

首先，通过分析电路结构和木马运行逻辑，结合传统机器学习的电路特征，提出木马检测需要的特征；然后，结合随机森林和平行坐标图分析特征的重要程度，对特征进行筛选，得到最佳特征集；接着，采用主成分分析PCA的方法对高维数据特征进行降维；最后，采用降维后的数据训练Isolation Forest无监督模型，得到最佳训练模型；采用测试数据进行测试，根据测试结果计算准确度参数，评估模型。

进一步，所述基于无监督学习的硬件木马检测系统和信息数据处理方法包括以下步骤：

步骤一，从电路结构、木马触发电路和负载电路功能的角度分析硬件木马特征，结合传统机器学习的电路特征和木马结构，将木马电路触发概率低这一关键特性与电路静态特征相关联，提出木马检测所需的电路特征；

步骤二，对待测的门级网表进行预处理，提取出硬件木马检测需要的特征；

步骤三，结合随机森林、相关性矩阵和平行坐标图分析电路特征对区分木马网络和正常网络的贡献度，对特征进行筛选，选取最佳的特征集；

步骤四，对步骤三得到的数据集进行归一化处理；

步骤五，采用特征降维方法，对步骤四得到的数据集进行降维处理；

步骤六，构建基于无监督学习的分类器，使用降维后的数据进行训练，根据训练结果优化模型，得到最佳训练模型；

步骤七，采用交叉验证的方法将若干待测数据集分为训练集和测试集；

步骤八，将测试数据输入到训练后的模型中进行检测，根据检测结果计算TPR，TNR，Precision，Recall，F1-score和Accuracy指标，评估模型检测能力。

进一步，步骤一中，所述选取的木马特征，包括：

①距离线网net输入端或者输出端x级远的逻辑门的数量；②距离线网net x级远的逻辑门的扇入数量；③距离线网net输入端或者输出端x级远的触发器的数量；④距离线网net输入端或者输出端x级远的多路选择器的数量；⑤距离线网net输入端或者输出端最近的多路选择器的逻辑级数；⑥距离线网net输入端或者输出端最近的触发器的逻辑级数；⑦线网net输入端或者输出端含有x级环路的数量；⑧距离线网net最近的主输入或者主输出所在的逻辑级数；⑨.距离线网net输入端或者输出端x级远的常数项的数量；⑩.距离线网net输入端或者输出端最近的反相器的逻辑级数；距离线网net输入端x级远处相同类型逻辑门的最大数量；其中，x的值为1，2，3，4，5。

进一步，步骤三中，所述结合随机森林、相关性矩阵和平行坐标图方法对特征进行筛选，包括：

使用平行坐标图对高维数据可视化，直观看出各个特征对区分木马电路和正常电路的贡献程度。

随后采用随机森林和相关性矩阵的方法，得到特征重要程度的确定值和各个特征之间的相关程度，对以上三种方法的结果进行对比分析，最终选取最佳特征集，所选取的最佳特征集包括：

(1)距离线网net最近的主输出所在的逻辑级数；

(2)距离线网net最近的主输入所在的逻辑级数；

(3)距离线网net输出端最近的触发器的逻辑级数；

(4)距离线网net输出端最近的多路选择器的逻辑级数；

(5)距离线网net输出端5级远的基本逻辑门的数量；

(6)距离线网net输出端5级远的触发器的数量；

(7)距离线网net输出端5级远的多路选择器的数量；

(8)距离线网net输入端5级远的触发器的数量；

(9)距离线网net输入端最近的触发器的逻辑级数；

(10)线网net输出端含有4级环路的数量；

(11)线网net输入端含有5级环路的数量；

(12)距离线网net输入端5级远处具有相同类型逻辑门的数量；

(13)距离线网net输入端5级远的多路选择器的数量；

(14)距离线网net输出端最近的反相器的逻辑级数；

(15)距离线网net输入端5级远的基本逻辑门的数量。

进一步，步骤五中，所述采用主成分分析PCA的方法进行降维，包括：

将每一位特征减去各自的平均值，计算协方差矩阵通过SVD计算协方差矩阵的特征值与特征向量；对特征值从大到小排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。

其中，k值的选取策略为：选取不同的k值，然后用下面的式子不断计算，选取能够满足下列式子条件的最小k值即可：

其中，t表示PCA算法保留原始数据(1-t)的信息。

进一步，步骤六中，所述构建基于无监督学习的分类器，使用降维后的数据进行训练，根据训练结果优化模型，得到最佳训练模型，包括：

(1)根据数据分布和各算法模型的特点选取模型；

(2)设置模型参数，并根据训练结果不断调整优化模型。

进一步，步骤六中，选取的无监督学习模型为Isolation Forest模型，使用步骤五中得到的降维后的数据进行训练，并根据训练结果不断优化模型，包括：

(1)设置污染率contamination为[0.01，0.02，0.05，0.08，0.1]；

(2)设置是否为有放回抽样bootstrap为False，设置是否继承上次训练的分类器进行下一步的训练warm_start为True；

(3)设置集成模型中分类器的数量，即孤立森林中树的数量n_estimators为[120，130，140，150，160，170，180]，设置训练每棵树时选取的特征比例max_features为[0.01，0.02，0.05，0.08，0.1]，设置训练每棵树时选取的样本比例max_samples为[0.01，0.02，0.05，0.08，0.1]；

(4)设置同时运行的进程数n_jobs为4；

(5)其他参数均选取默认值。

使用网格搜索对(1)和(3)中的参数进行选择，选取得到最优结果的参数作为最佳模型的参数。

进一步，步骤七中，所述交叉验证的方法为：

假设有N个待测电路，则每次取一个待测电路为测试集，剩下N-1个待测电路为训练集，这个过程重复N次，确保所有待测电路都被训练过且都被测试过，最大限度利用数据集，使模型可以学到数据的全部信息。

进一步，步骤八中，所述TPR，TNR，Precision，Recall，F1-score和Accuracy指标的计算方法如下：

TNR＝TN/(TN+FP)；

TPR＝TP/(TP+FN)；

Precision＝TP/(TP+FP)；

Recall＝TN/(TN+FP)；

F1-score＝2*Precision*Recall/(Precision+Recall)；

Accuracy＝(TP+TN)/total。

本发明的另一目的在于提供一种应用所述的基于无监督学习的硬件木马检测系统和信息数据处理方法的硬件木马检测系统，所述硬件木马检测系统包括：

电路特征获取模块，从电路结构、木马触发电路和负载电路功能的角度分析硬件木马特征，结合传统机器学习的电路特征和木马结构，将木马电路触发概率低这一关键特性与电路静态特征相关联，提出木马检测所需的电路特征；

木马特征提取模块，用于对待测的门级网表进行预处理，提取出硬件木马检测需要的特征；

最佳特征集选取模块，用于结合随机森林和平行坐标图分析电路特征对区分木马网络和正常网络的贡献度，对特征进行筛选，选取最佳的特征集；

特征集处理模块，用于对得到的特征集进行归一化处理；同时采用特征降维方法，对得到的特征集进行降维处理；

训练模型获取模块，用于通过构建基于无监督学习的分类器，使用降维后的数据进行训练，根据训练结果优化模型，得到最佳训练模型；

数据集分类模块，用于采用交叉验证的方法将若干待测数据集分为训练集和测试集；

硬件木马检测模块，用于将测试数据输入到训练后的模型中进行检测，根据检测结果计算TPR，TNR，Precision，Recall，F1-score和Accuracy指标，评估模型检测能力。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的硬件木马检测系统。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

本发明提供的基于无监督学习的硬件木马检测系统和信息数据处理方法，首先，通过分析电路结构和木马运行逻辑，结合传统机器学习的电路特征，提出木马检测需要的特征。然后，结合随机森林和平行坐标图分析特征的重要程度，对特征进行筛选，得到最佳特征集。接着，采用PCA(主成分分析)方法对高维数据特征进行降维。最后，采用降维后的数据训练Isolation Forest无监督模型，得到最佳训练模型。采用测试数据进行测试，根据测试结果计算准确度等参数，评估模型。

所达到的优点及积极效果为：

1.改进了以往基于静态特征对硬件木马进行检测时所选取的特征，创造性地将木马触发概率低这一关键属性和电路静态特征相关联，为后续的相关研究开创了新思路。

2.提供了一种分析并提取特征的方法，从大量特征中提取出对解决问题最有效的特征，为研究电路特征相关性和相似性分析的相关研究提供了参考。

3.提供了一种特征降维方法，有效降低特征维数并保留99％以上的数据信息，解决了以往机器学习方法由于电路特征维度过高造成的算法复杂度高、检测时间长、检测精度不佳等问题。

4.将无监督模型应用到木马检测中，该方法无需大量的标签信息和平衡的数据，解决了当前木马信息和正常电路信息严重失衡以及硬件木马检测领域标签值不易获得甚至无法获得的难题，为后续的硬件安全领域的相关研究提供了新方向。

本发明提供的结合主成分分析(PCA)和孤立森林(Isolation Forest)算法的无监督硬件木马检测方法，有效解决了硬件木马检测遇到的问题，也为硬件安全领域的相关研究提供了新方向。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于无监督学习的硬件木马检测系统和信息数据处理方法流程图。

图2是本发明实施例提供的基于无监督学习的硬件木马检测系统和信息数据处理方法原理图。

图3是本发明实施例提供的硬件木马检测系统结构框图；

图中：1、电路特征获取模块；2、木马特征提取模块；3、最佳特征集选取模块；4、特征集处理模块；5、训练模型获取模块；6、数据集分类模块；7、硬件木马检测模块。

图4是本发明实施例提供的随机森林分类原理图。

图5是本发明实施例提供的相关性矩阵图。

图6是本发明实施例提供的孤立森林算法原理图。

图7是本发明实施例提供的一个测试电路RS232-T1200的木马电路示意图。

图8是本发明实施例提供的一个测试电路s15850-T100的木马电路示意图。

图9是本发明实施例提供的一个测试电路s38417-T300的木马电路示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于无监督学习的硬件木马检测系统和信息数据处理方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于无监督学习的硬件木马检测系统和信息数据处理方法包括以下步骤：

S101，从电路结构、木马触发电路和负载电路功能的角度分析硬件木马特征，结合传统机器学习的电路特征和木马结构，将木马触发概率低这一关键属性和电路静态特征相关联，提出木马检测所需的电路特征；

S102，对待测的门级网表进行预处理，提取出硬件木马检测需要的特征；

S103，结合随机森林、相关性矩阵和平行坐标图分析电路特征对区分木马网络和正常网络的贡献度，对特征进行筛选，选取最佳的特征集；

S104，对S103得到的特征集进行归一化处理；同时采用特征降维方法，对归一化后的数据集进行降维处理；

S105，构建基于无监督学习的分类器，使用降维后的数据进行训练，根据训练结果优化模型，得到最佳训练模型；

S106，采用交叉验证的方法将若干待测数据集分为训练集和测试集；

S107，将测试数据输入到训练后的模型中进行检测，根据检测结果计算TPR，TNR，Precision，Recall，F1-score和Accuracy指标，评估模型检测能力。

本发明实施例提供的基于无监督学习的硬件木马检测系统和信息数据处理方法原理图如图2所示。

如图3所示，本发明实施例提供的硬件木马检测系统包括：

电路特征获取模块1，用于从电路结构、木马触发电路和负载电路功能的角度分析硬件木马特征，结合传统机器学习的电路特征和木马结构，将木马触发概率低这一关键属性和电路静态特征相关联，提出木马检测所需的电路特征；

木马特征提取模块2，用于对待测的门级网表进行预处理，提取出硬件木马检测需要的特征；

最佳特征集选取模块3，用于结合随机森林、相关性矩阵和平行坐标图分析电路特征对区分木马网络和正常网络的贡献度，对特征进行筛选，选取最佳的特征集；

特征集处理模块4，用于对得到的特征集进行归一化处理；同时采用特征降维方法，对得到的特征集进行降维处理；

训练模型获取模块5，用于通过构建基于无监督学习的分类器，使用降维后的数据进行训练，根据训练结果优化模型，得到最佳训练模型；

数据集分类模块6，用于采用交叉验证的方法将若干待测数据集分为训练集和测试集；

硬件木马检测模块7，用于将测试数据输入到训练后的模型中进行检测，根据检测结果计算TPR，TNR，Precision，Recall，F1-score和Accuracy指标，评估模型检测能力。

下面结合实施例对本发明的技术方案作进一步描述。

实施例1

本发明实施例提供的基于机器学习的硬件木马检测方法，包括：分析电路结构和木马运行逻辑，结合传统机器学习的电路特征，提出所需要的电路特征，并对待测电路的门级网表进行处理，提取出硬件木马检测需要的特征，结合随机森林、相关性矩阵和平行坐标图分析电路特征对区分正常电路和木马电路的贡献度，选择最佳特征集，进行归一化处理后，采用PCA(主成分分析)方法对数据进行降维，使用降维后的数据训练Isolation Forest(孤立森林)分类器，得到最佳训练模型，将测试数据输入到训练后的模型中检测，得到测试结果，计算TPR，TNR，Precision，Recall，F1-score和Accuracy等相关指标并绘制ROC曲线来评估模型的检测能力。

本发明提出的电路特征包括传统机器学习的特征和本发明新提出的特征。

本发明使用的平行坐标图使用Python语言进行绘制，最后一个坐标轴为标签值，1表示木马网络，0表示正常网络，其余坐标轴为特征值，用于分析各个坐标对区分木马网络和正常网络的贡献度。

本发明采用的随机森林方法和相关性矩阵的方法使用Python语言实现，随机森林可以给出各个特征重要性的确定值，相关性矩阵可以得到各个特征之间的相关程度。结合上述三种方法的结果，可以准确得出各个特征对区分木马电路和正常电路的贡献度，从而可以选取最佳的特征集。

本发明采用特征降维方法对数据特征进行降维，减少算法计算复杂度的同时保留数据的绝大部分信息。

本发明选取的特征降维方法为PCA(主成分分析)，具体步骤为：

步骤S1：去平均值(即去中心化)，即将每一位特征减去各自的平均值。

步骤S2：计算协方差矩阵

步骤S3：通过SVD计算协方差矩阵的特征值与特征向量。

步骤S4：对特征值从大到小排序，选择其中最大的k个。然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。

k值的选取策略为：选取不同的k值，然后用下面的式子不断计算，选取能够满足下列式子条件的最小k值即可。

其中，t表示PCA算法保留了原始数据(1-t)的信息。例如，当t值取0.01时，代表了该PCA算法保留了原始数据99％的主要信息。

本发明使用处理好的特征训练基于无监督学习的分类器。相比于监督学习模型，无监督学习模型不需要大量的已知标签信息。此外，无监督学习方法的训练过程耗时短，且不需要大量平衡的训练数据。

本发明选取的无监督学习模型为Isolation Forest(孤立森林)，模型选择sklearn的Isolation Forest，具体设置为：设置污染率contamination为[0.01，0.02，0.05，0.08，0.1]；设置是否为有放回抽样bootstrap为False，设置是否继承上次训练的分类器进行下一步的训练warm_start为True；设置集成模型中分类器的数量，即孤立森林中树的数量n_estimators为[120，130，140，150，160，170，180]，设置训练每棵树时选取的特征比例max_features为[0.01，0.02，0.05，0.08，0.1]，设置训练每棵树时选取的样本比例max_samples为[0.01，0.02，0.05，0.08，0.1]；设置同时运行的进程数n_jobs为4；其他参数均选取默认值；使用网格搜索对(1)和(3)中的参数进行选择，选取得到最优结果的参数作为最佳模型的参数。

实施例2

本发明的发明目的在于针对上述背景技术中的情况，提供一种基于机器学习的硬件木马检测方法，并针对以往机器学习方法由于电路特征维度过高造成的算法复杂度高、检测时间长、检测精度不佳等问题，采用PCA(主成分分析)方法进行降维，在降低特征维度的同时保留绝大部分数据信息，使用降维后的数据训练Isolation Forest(孤立森林)无监督模型，应用训练好的最佳模型对硬件木马进行检测与定位。

为实现上述目的，本发明采用如下技术方案：

步骤S1：从电路结构、木马触发电路和负载电路功能的角度分析硬件木马特征，结合传统机器学习的电路特征和木马结构，将木马触发概率低这一关键属性和电路静态特征相关联，提出木马检测所需的电路特征。

步骤S2：对待测的门级网表进行预处理，从中提取出硬件木马检测需要的特征。

步骤S3：结合随机森林、相关性矩阵和平行坐标图分析电路特征对区分木马网络和正常网络的贡献度，对特征进行筛选，选取最佳的特征集。

步骤S4：对步骤S3得到的数据进行归一化处理。

步骤S5：采用特征降维方法，对步骤S4得到的数据进行降维处理，减少算法计算复杂度的同时保留数据的绝大部分信息。

步骤S6：构建基于无监督学习的分类器，使用降维后的数据进行训练，根据训练结果优化模型，得到最佳训练模型。

步骤S61：根据数据分布和各算法模型的特点选取模型。

步骤S62：设置模型参数，并根据训练结果不断调整优化模型。

步骤S7：采用交叉验证的方法将若干待测数据集分为训练集和测试集，这样可以最大限度地利用数据集，防止分类器未学到测试集的特征导致预测结果不完整。交叉验证的方法为：假设有N个待测电路，则每次取一个待测电路为测试集，剩下N-1个待测电路为训练集，这个过程重复N次，确保所有待测电路都被训练过且都被测试过，最大限度利用数据集，使模型可以学到数据的全部信息。

步骤S8：将测试数据输入到训练后的模型中进行检测，根据检测结果计算TPR，TNR，Precision，Recall，F1-score和Accuracy等指标来评估模型的检测能力。

步骤S9：进一步地，步骤S1中，选取的木马特征为：距离线网net输入端或者输出端x级远的逻辑门的数量(x的值为1，2，3，4，5)；距离线网net x级远的逻辑门的扇入数量(x的值为1，2，3，4，5)；距离线网net输入端或者输出端x级远的触发器的数量(x的值为1，2，3，4，5)；距离线网net输入端或者输出端x级远的多路选择器的数量(x的值为1，2，3，4，5)；距离线网net输入端或者输出端最近的多路选择器的逻辑级数；距离线网net输入端或者输出端最近的触发器的逻辑级数；距离线网net输入端或者输出端最近的反相器的逻辑级数；线网net输入端或者输出端含有x级环路的数量(x的值为1，2，3，4，5)；距离线网net最近的主输入或者主输出所在的逻辑级数；距离线网net输入端或者输出端x级远的常数项的数量(x的值为1，2，3，4，5)；距离线网net输入端x级远处相同类型逻辑门的最大数量(x的值为1，2，3，4，5)。

步骤S10：进一步地，步骤S5中，采用PCA(主成分分析)方法进行降维，首先，将每一位特征减去各自的平均值，然后计算协方差矩阵通过SVD计算协方差矩阵的特征值与特征向量。对特征值从大到小排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。k值的选取策略为：选取不同的k值，然后用下面的式子不断计算，选取能够满足下列式子条件的最小k值即可。

其中，t表示PCA算法保留了原始数据(1-t)的信息。例如，当t值取0.01时，代表了该PCA算法保留了原始数据99％的主要信息。

步骤S11：进一步地，步骤S6中，选取的无监督学习模型为Isolation Forest模型，使用步骤S5中得到的降维后的数据进行训练，并根据训练结果不断优化模型。

S111：设置污染率contamination为[0.01，0.02，0.05，0.08，0.1]。

S112：设置是否为有放回抽样bootstrap为False，设置是否继承上次训练的分类器进行下一步的训练warm_start为True。

S113设置集成模型中分类器的数量，即孤立森林中树的数量n_estimators为[120，130，140，150，160，170，180]，设置训练每棵树时选取的特征比例max_features为[0.01，0.02，0.05，0.08，0.1]，设置训练每棵树时选取的样本比例max_samples为[0.01，0.02，0.05，0.08，0.1]。

S114：设置同时运行的进程数n_jobs为4。

S115：其他参数均选取默认值。

使用网格搜索对(1)和(3)中的参数进行选择，选取得到最优结果的参数作为最佳模型的参数。

步骤S12：进一步地，步骤S8中，TPR，TNR，Precision，Recall，F1-score和Accuracy指标的计算方法如下：

TNR＝TN/(TN+FP)，TPR＝TP/(TP+FN)，Precision＝TP/(TP+FP)，Recall＝TN/(TN+FP)，F1-score＝2*Precision*Recall/(Precision+Recall)，Accuracy＝(TP+TN)/total。

实施例3

参照图2，本发明实施例提供的基于无监督学习的硬件木马检测系统和信息数据处理方法，包括以下步骤：

步骤S1：从电路结构、木马触发电路和负载电路功能的角度分析硬件木马特征，分析木马电路和正常电路的不同，将木马电路触发概率低这一特性与静态特征相关联，设计可以高效检测出硬件木马电路的电路特征。

所选取的木马特征为：距离线网net输入端或者输出端x级远的逻辑门的数量out_logic_gate_x、in_logic_gate_x(x的值为1，2，3，4，5)；距离线网net x级远的逻辑门的扇入数量fan_in_x(x的值为1，2，3，4，5)；距离线网net输入端或者输出端x级远的触发器的数量in_dff_x、out_dff_x(x的值为1，2，3，4，5)；距离线网net输入端或者输出端x级远的多路选择器的数量in_mux_x、out_mux_x(x的值为1，2，3，4，5)；距离线网net输入端或者输出端最近的多路选择器的逻辑级数out_nearest_mux、in_nearest_mux；距离线网net输入端或者输出端最近的触发器的逻辑级数out_nearest_dff、in_nearest_dff；距离线网net输入端或者输出端最近的反相器的逻辑级数in_nearest_inv、out_nearest_inv；线网net输入端或者输出端含有x级环路的数量in_loop_x、out_loop_x(x的值为1，2，3，4，5)；距离线网net最近的主输入或者主输出所在的逻辑级数nearest_pin、nearest_pout；距离线网net输入端或者输出端x级远的常数项的数量in_const_x、out_const_x(x的值为1，2，3，4，5)；距离线网net输入端x级远处相同类型逻辑门的最大数量in_same_gate_x(x的值为1，2，3，4，5)。

步骤S2：对待测的门级网表进行预处理，使用Python脚本进行文本分析，从中提取出所需要的电路特征。

步骤S3：由于电路特征涉及六十多种，特征维度很高，使用常规手段无法可视化，于是，采取平行坐标图获得正常网络和木马网络在不同电路特征上的分布情况，直观看出各个特征对区分木马电路和正常电路的贡献度；同时，采取随机森林和相关性矩阵的方法，得到各个特征重要性的确定值和各个特征之间的相关程度；结合上述三种方法的结果进行分析，对特征进行筛选，得到最佳特征集。其中，随机森林分类原理图如图4所示，相关性矩阵图如图5所示。

如图4所示，部分特征按照特征重要性排序后如表1所示(特征重要性归一化)。

表1特征重要性排序(归一化)

特征	重要性	特征	重要性
				nearest_pout	0.043760	in_same_gate_3	0.014762
out_nearest_dff	0.042356	fan_in_1	0.014324
				out_logic_gate_5	0.042214	in_mux_5	0.013926
out_logic_gate_4	0.038704	out_dff_3	0.013620
				out_logic_gate_1	0.037122	out_dff_2	0.013165
out_logic_gate_3	0.033397	in_nearest_inv	0.012988
				out_logic_gate_2	0.031972	in_dff_3	0.012708
out_dff_5	0.030106	in_same_gate_2	0.012640
				in_logic_gate_5	0.027495	out_mux_1	0.012253
in_nearest_dff	0.027337	in_nearest_mux	0.011942
				fan_in_5	0.026090	in_mux_4	0.011192
in_dff_5	0.025914	out_loop_5	0.010715
				fan_in_4	0.025871	in_mux_3	0.010151
in_same_gate_5	0.025151	out_dff_1	0.009487
				out_nearest_mux	0.024698	out_loop_3	0.009433
in_logic_gate_4	0.023731	out_const_0	0.007988
				nearest_pin	0.023598	in_dff_2	0.007923
out_dff_4	0.022216	in_mux_2	0.006962
				out_mux_5	0.022125	out_loop_2	0.004094
fan_in_3	0.022014	in_dff_1	0.004074
				out_mux_4	0.019873	in_loop_4	0.004018
out_nearest_inv	0.018421	in_loop_5	0.003258
				out_mux_2	0.017752	in_mux_1	0.002561
fan_in_2	0.017723	in_loop_3	0.002271
				out_mux_3	0.017393	in_const_3	0.001182
in_logic_gate_3	0.017074	in_const_1	0.001066
				in_dff_4	0.016860	in_const_2	0.000834
in_same_gate_4	0.016557	in_const_4	0.000671
				out_loop_4	0.016339	in_const_5	0.000426
in_logic_gate_2	0.015102	in_logic_gate_1	0.000399

步骤S4：结合表中的特征重要性以及木马电路的结构特征，对特征进行整合、筛选，选取最佳特征集。所选取的最佳特征集包括：

(1)距离线网net最近的主输出所在的逻辑级数；

(2)距离线网net最近的主输入所在的逻辑级数；

(3)距离线网net输出端最近的触发器的逻辑级数；

(4)距离线网net输出端最近的多路选择器的逻辑级数；

(5)距离线网net输出端5级远的基本逻辑门的数量；

(6)距离线网net输出端5级远的触发器的数量；

(7)距离线网net输出端5级远的多路选择器的数量；

(8)距离线网net输入端5级远的触发器的数量；

(9)距离线网net输入端最近的触发器的逻辑级数；

(10)线网net输出端含有4级环路的数量；

(11)线网net输入端含有5级环路的数量；

(12)距离线网net输入端5级远处具有相同类型逻辑门的数量；

(13)距离线网net输入端5级远的多路选择器的数量；

(14)距离线网net输出端最近的反相器的逻辑级数；

(15)距离线网net输入端5级远的基本逻辑门的数量。

步骤S5：对步骤S4得到的特征数据集进行归一化处理。

归一化的公式为：其中，min为所有样本数据的最小值，max为所有样本数据的最大值。

步骤S6：采用PCA(主成分分析)方法，对步骤S5得到的数据集进行降维处理，减少算法计算复杂度的同时保留数据的绝大部分信息。

具体步骤如下：

步骤S61：去平均值(即去中心化)，即将每一位特征减去各自的平均值。

步骤S62：计算协方差矩阵

步骤S63：通过SVD计算协方差矩阵的特征值与特征向量。

步骤S64：对特征值从大到小排序，选择其中最大的k个。然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。

k值的选取策略为：选取不同的k值，然后用下面的式子不断计算，选取能够满足下列式子条件的最小k值即可。

其中，t表示PCA算法保留了原始数据(1-t)的信息。例如，当t值取0.01时，代表了该PCA算法保留了原始数据99％的主要信息。

步骤S7：构建Isolation Forest无监督模型，使用步骤S5中得到的降维后的数据进行训练，得到最佳训练模型。

步骤S71：设置污染率contamination为[0.01，0.02，0.05，0.08，0.1]；

步骤S72：设置是否为有放回抽样bootstrap为False，设置是否继承上次训练的分类器进行下一步的训练warm_start为True；

步骤S73：设置集成模型中分类器的数量，即孤立森林中树的数量n_estimators为[120，130，140，150，160，170，180]，设置训练每棵树时选取的特征比例max_features为[0.01，0.02，0.05，0.08，0.1]，设置训练每棵树时选取的样本比例max_samples为[0.01，0.02，0.05，0.08，0.1]；

步骤S74：设置同时运行的进程数n_jobs为4；

步骤S75：其他参数均选取默认值。

使用网格搜索对(1)和(3)中的参数进行选择，选取得到最优结果的参数作为最佳模型的参数。其中，孤立森林算法原理图如图6所示。

步骤S8：采用交叉验证的方法将待测数据集分为训练集和测试集，这样可以最大限度地利用数据集，防止分类器未学到测试集的特征导致预测结果不完整。

交叉验证的方法为：假设有N个待测电路，则每次取一个待测电路为测试集，剩下N-1个待测电路为训练集，这个过程重复N次，确保所有待测电路都被训练过且都被测试过，最大限度利用数据集，使模型可以学到数据的全部信息。

本发明的一个测试电路RS232-T1200的木马电路如图7所示，本发明的一个测试电路s15850-T100的木马电路如图8所示，本发明的一个测试电路s38417-T300的木马电路如图9所示。

训练中采用的电路为Trusthub上的门级网表，具体如表2所示。

表2待测电路

电路名称	正常网络数量	木马网络数量
			RS232-T1000	283	36
RS232-T1100	284	36
			RS232-T1200	289	34
RS232-T1300	287	29
			RS232-T1400	273	45
RS232-T1500	283	39
			RS232-T1600	292	29
s15850-T100	2429	27
			s35932-T100	6407	15
s35932-T200	6405	12
			s35932-T300	6405	37
s38417-T100	5798	12
			s38417-T200	5798	15
s38417-T300	5801	44
			s38584-T100	7343	19
s38584-T200	7373	97
			s38584-T300	7614	874

步骤S9：将测试数据输入到训练后的模型中进行检测，根据检测结果计算TPR，TNR，Precision，Recall，F1-score和Accuracy等指标，并绘制ROC曲线，以此评估模型的检测能力。

TPR，TNR，Precision，Recall，F1-score和Accuracy的计算公式为：TNR＝TN/(TN+FP)，TPR＝TP/(TP+FN)，Precision＝TP/(TP+FP)，Recall＝TN/(TN+FP)，F1-score＝2*Precision*Recall/(Precision+Recall)，Accuracy＝(TP+TN)/total。

ROC曲线中，FPR为横坐标，TPR为纵坐标，曲线下方的面积为AUC，AUC越大越好，理想AUC值为1。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

27页详细技术资料下载

基于无监督学习的硬件木马检测系统和信息数据处理方法

相关技术

网友询问留言