基于区块链的网络谣言溯源取证方法及系统

文档序号:1952900 发布日期:2021-12-10 浏览:8次 >En<

阅读说明:本技术 基于区块链的网络谣言溯源取证方法及系统 (Network rumor source tracing evidence obtaining method and system based on block chain ) 是由 李飞扬 潘瑞萱 胡浩 李振东 徐潇雨 段小琼 云万里 李炳龙 于 2021-08-18 设计创作,主要内容包括:本发明属于网络取证监测技术领域,特别涉及一种基于区块链的网络谣言溯源取证方法及系统,利用已训练的二分类模型鉴别属于谣言的文本数据,并以交易形式打包谣言本文数据;针对将验证合法的谣言数据包,将谣言原文加密存储至分布式文件IPFS系统,并通过调用智能合约将分布式文件IPFS系统文件地址及谣言相关数据以交易形式广播并存储在由Fabric联盟链构建的区块链网络上;通过数字签名被授予权限的相关用户从区块链网络中获取与谣言相关的数据信息以及谣言原文,通过实体相关构建谣言知识图谱挖掘谣言散播途径并定位相关责任人。本发明能够高效展示出区块链的溯源取证过程,辟谣周期短,能够将谣言扼杀在发布但未广泛传播之时,极大程度减小谣言的影响。(The invention belongs to the technical field of network forensics monitoring, and particularly relates to a block chain-based network rumor source tracing forensics method and system, wherein text data belonging to rumors are identified by utilizing a trained binary classification model, and the rumor text data are packaged in a transaction form; for a rumor data packet which is to be verified to be legal, encrypting and storing a rumor original text to a distributed file IPFS system, and broadcasting a file address and rumor related data of the distributed file IPFS system in a transaction form by calling an intelligent contract and storing the file address and the rumor related data on a blockchain network constructed by a Fabric alliance chain; the related users granted the right through the digital signature acquire data information related to the rumor and the rumor original text from the blockchain network, and excavate a rumor dissemination path and locate related responsible persons through entity related construction of a rumor knowledge graph. The method can efficiently show the tracing and evidence obtaining process of the block chain, has short rumor splitting period, and can kill the rumors when the rumors are released but not widely spread, thereby greatly reducing the influence of the rumors.)

基于区块链的网络谣言溯源取证方法及系统

技术领域

本发明属于网络取证监测技术领域,特别涉及一种基于区块链的网络谣言溯源取证方法及系统。

背景技术

在日常状态下,社会网络的信息供需处于相对均衡的状态,而突发事件爆发后,社会舆论环境骤变,各类信息需求空前增加,无论在需求数量还是在需求质量上都会有所变化,信息需求强度不断加码。例如,天津港爆炸发生后,人们迫切想了解“爆炸物是什么”“危险品离居民区有多远”“污染物多久可以分散掉”等一系列重要信息,而它们在平时是很少受到民众特别关注的。谣言是一个亘古不变的热门话题。国内网络辟谣平台的兴起方兴未艾,如火如荼,但也暴露出许多问题。互联网环境的复杂性与传播性,以及自媒体时代,人人都已成为自媒体,给打击网络谣言工作带来许多困难。网络谣言泛滥严重危害着公众利益,辟谣需求迫在眉睫。现有的辟谣系统例如微博辟谣平台、腾讯较真辟谣平台等,存在以下几点问题:一是依靠用户和站方的举报发现处理谣言信息,谣言信息处理量小,挖掘深度浅;二是接到谣言举报后由委员会投票判定,谣言信息处理时间长,处理效率低;三是谣言处理过程中平台方占据主导,谣言处理过程不透明。多数辟谣平台在谣言挖掘和谣言鉴别阶段采取用户举报或专人核实的方式,往往只能在谣言发酵的高潮阶段阻断谣言;二是缺乏专门的谣言信息数据库,用户在检索查证常见谣言时,不能全面的展示查找结果,且存在相似谣言多次鉴别的问题,严重影响辟谣效率;三是辟谣效果不理想,权威性或用户认同感不强,大部分辟谣平台皆有平台方主导,辟谣过程不透明,谣言散播过程不详尽,辟谣方式不够直观有效,缺乏说服力。

发明内容

为此,本发明提供一种基于区块链的网络谣言溯源取证方法及系统,针对现有辟谣平台谣言信息处理量小等问题,通过将知识图谱与区块链技术结合,能够高效展示出区块链的溯源取证过程,辟谣周期短,能够将谣言扼杀在发布但未广泛传播之时,极大程度减小谣言的影响。

按照本发明所提供的设计方案,一种基于区块链的网络谣言溯源取证方法,包含:

针对社交文本数据,利用已训练的二分类模型鉴别属于谣言的文本数据;

对属于谣言的文本数据以交易形式打包谣言本文数据,并对打包后谣言数据的有效性进行检验;

针对将验证合法的谣言数据,将谣言原文加密存储至分布式文件IPFS系统,并通过调用智能合约将分布式文件IPFS系统文件地址及谣言相关数据以交易形式广播并存储在由Fabric联盟链构建的区块链网络上;

通过数字签名被授予权限的相关用户从区块链网络中获取与谣言相关的数据信息以及谣言原文,将用户及谣言信息作为实体,依据实体之间的关系,构建谣言知识图谱,其中,实体之间的关系至少包含:发布、转发、评论及关注;利用谣言知识图谱挖掘谣言散播途径并定位相关责任人。

作为本发明基于区块链的网络谣言溯源取证方法,进一步地,通过网络爬虫自动化获取社交文本实时数据。

作为本发明基于区块链的网络谣言溯源取证方法,进一步地,二分类模型采用词向量BERT和双向长短时记忆网络BiLSTM模型作为二分类谣言鉴别模型,首先利用词向量BERT进行预训练,将自然语言字词转化为计算机识别运算向量,然后使用双向长短时记忆网络BiLSTM模型对词向量BERT输出进行判断筛选,利用判断筛选结果鉴别出谣言数据,其中,判断筛选中,通过对输入特征向量分别采用顺序和逆序计算得到两套隐层表示,将两套隐层表示拼接,并利用softmax层输出归属谣言类型的概率矩阵。

作为本发明基于区块链的网络谣言溯源取证方法,进一步地,二分类模型训练中,首先利用样本数据划分为肯定谣言样本和否定谣言样本,分别利用肯定谣言样本和否定谣言样本对二分类模型进行训练,得到肯定模型和否定模型;然后,利用谣言鉴别的测试样本数据中的肯定谣言样本和否定谣言样本对肯定模型和否定模型进行测试,依据肯定模型和否定模型预测正确率平均数作为模型优化约束条件来获取训练后的二分类模型。

作为本发明基于区块链的网络谣言溯源取证方法,进一步地,有效性检测包含:验证数据中是否有语法及逻辑错误。

作为本发明基于区块链的网络谣言溯源取证方法,进一步地,分布式文件IPFS系统存储原文中,通过预先制定的用户访问控制策略对上传用户身份验证,验证通过后将谣言原文进行加密,并将加密文件上传至分布式文件IPFS系统;分布式文件IPFS系统根据谣言原文计算该谣言原文对应的哈希值,通过调用智能合约将该哈希值及谣言相关数据存储至区块链网络上。

作为本发明基于区块链的网络谣言溯源取证方法,进一步地,访问文本时,通过智能合约及用户访问控制策略获取相应用户权限,符合访问权限的用户获取访问请求对应的本文哈希值,利用该文本哈希值调取对应的分布式文件IPFS系统文本原文。

作为本发明基于区块链的网络谣言溯源取证方法,进一步地,区块链网络中以<k,v>键值对形式存储相关数据,其中,数据用户ID作为主键,该主键下存储与该数据用户ID相关的所有信息;分布式文件IPFS系统中以数据块形式存储与哈希值地址一一对应的的数据块;数字签名中,以SM2加密算法作为公钥算法生成公私钥对对用户个人隐私信息进行加密,以SM3加密算法作为散列算法生成区块链区块地址并进行散列计算,获取签名数据。

作为本发明基于区块链的网络谣言溯源取证方法,进一步地,针对谣言原文,利用双向LSTM网络模型获取包含命名实体识别和谣言事件摘要信息的谣言相关数据,具体包含:对输入的谣言原文依次预处理和词语编码,并送入双向LSTM网络模型获取文本候选关键词,依据文本候选关键词重要程度选取关键词,将选取的关键词和谣言原文送入Attention机制中以每个关键词为中心来抽取周围上下文获取文本摘要信息。

进一步地,本发明还提供一种基于区块链的网络谣言溯源取证系统,包含:鉴别模块、检验模块、存储模块和查询挖掘模块,其中,

鉴别模块,用于针对社交文本数据,利用已训练的二分类模型鉴别属于谣言的文本数据;

检验模块,用于对属于谣言的文本数据以交易形式打包谣言本文数据,并对打包后谣言数据的有效性进行检验;

存储模块,用于针对将验证合法的谣言数据,将谣言原文加密存储至分布式文件IPFS系统,并通过调用智能合约将分布式文件IPFS系统文件地址及谣言相关数据以交易形式广播并存储在由Fabric联盟链构建的区块链网络上;

查询挖掘模块,用于通过数字签名被授予权限的相关用户从区块链网络中获取与谣言相关的数据信息以及谣言原文,将用户及谣言信息作为实体,依据实体之间的关系,构建谣言知识图谱,其中,实体之间的关系至少包含:发布、转发、评论及关注;利用谣言知识图谱挖掘谣言散播途径并定位相关责任人。

本发明的有益效果:

本发明利用Fabric联盟链构建区块链网络,利用区块链的不可篡改性、去中心化等特点实现网络谣言取证,为网络谣言追责取证以及辟谣提供相关证据,构建和谐社交媒体;通过关键词构建知识图谱,并基于该知识图谱实现热点事件的跟踪,重构谣言溯源。结合区块链防篡改性与深度学习对复杂事务处理的准确性,对网络文字载体信息智能化分类鉴别,存储与重构谣言发酵与谣言传播信息,从而对网络谣言实施精确锁定,深化辟谣力度,威慑谣言犯罪。并进一步通过试验数据表明,本案方案具有很好的安全性和可行性,方案操作复杂度较低,便于维护,对百字以内文本鉴别准确率达到93%,其准确率较高,鉴别效果较好;谣言信息平均上链延迟在50tps情况下仅为1s,存储谣言信息可达50MB/条,其容量大,效率高,且具有不可篡改性。此外,本案方案具有很广阔的应用场景,可以用于新闻媒体监管、网络舆情监管等方面。

附图说明

图1为实施例中基于区块链的网络谣言溯源取证流程示意;

图2为实施例中区块链原理示意;

图3为实施例中Fabric联盟链架构示意;

图4为实施例中BiLSTM模型结构示意;

图5为实施例中BERT模型结构示意;

图6为实施例中BERT+BiLSTM模型流程示意;

图7为实施例中谣言文本数据实例示意;

图8为实施例中谣言存储流程示意;

图9为实施例中Fabric账本结构示意;

图10为实施例中IPFS存储结构示意;

图11为实施例中SM2-SM3加密流程示意;

图12为实施例中摘要信息提取流程示意;

图13为实施例中摘要信息提取网络结构示意;

图14为实施例中系统平台部署结构示意;

图15为实施例中系统平台工作流程示意;

图16为实施例中LSTM知识抽取效率示意;

图17为实施例中区块链出路效率示意。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。

信息环境下,网络谣言的散布与传播带来极其恶劣的影响,对公民个体权利造成了损害,对政府正常的管理活动形成了挑战,对社会正常的秩序带来了影响。政府作为网络谣言的治理主体,采取了积极的措施应对,取得了较大的成效。但现阶段网络谣言治理中依然存在不少问题,也损毁了政府形象。只有从技术、管理、法律、方式及教育等层面采取措施进行综合治理,才能从根本上减少网络谣言,实现网络社会的和谐。本发明实施例,提供一种基于区块链的网络谣言溯源取证方法,参见图1所示,包含:

S101、针对社交文本数据,利用已训练的二分类模型鉴别属于谣言的文本数据;

S102、对属于谣言的文本数据以交易形式打包谣言本文数据,并对打包后谣言数据的有效性进行检验;

S103、针对将验证合法的谣言数据,将谣言原文加密存储至分布式文件IPFS系统,并通过调用智能合约将分布式文件IPFS系统文件地址及谣言相关数据以交易形式广播并存储在由Fabric联盟链构建的区块链网络上;

S104、通过数字签名被授予权限的相关用户从区块链网络中获取与谣言相关的数据信息以及谣言原文,将用户及谣言信息作为实体,依据实体之间的关系,构建谣言知识图谱,其中,实体之间的关系至少包含:发布、转发、评论及关注;利用谣言知识图谱挖掘谣言散播途径并定位相关责任人。

区块链概念起源于比特币系统,它最初的学术定义为:由包含交易信息的区块从后向前有序连接起来的数据结构。区块链由若干区块构成,每个区块存储若干交易数据(消息)。每条消息的数据和区块中已处理的消息进行哈希计算(Hash Function),获得相对应的哈希值并利用Merkle tree的数据结构将这些消息以及消息的哈希值存储在区块中。如图2所示,区块链是对密码学、数据库技术、网络技术、共识算法、智能合约等技术的集成创新应用,具有去中心化、去信任化、公开透明、可信数据库、可追溯性等特点。图3为Fabric联盟链技术平台架构,Fabric联盟链技术平台包括:证书服务、客户端、Peer节点以及共识网络(由许多Orderer节点组成)。Fabric联盟链的交易过程包括:客户端提案、模拟交易、签名、排序服务、验证交易、将交易写入账本。本案实施例中,以Fabric联盟链为技术依托可以做到很好的节点间的连接,只需要极少的成本就能维持运行,提供迅速的交易处理和低廉的交易费用,有很好的扩展性。同时将自然语言处理引入智能合约,使用高效的拜占庭容错共识机制,使网络谣言智能溯源系统在保证安全性与可靠性的同时兼顾了效率与成本。

本案方案中,可依托于微博社交媒体,针对网络谣言取证和谣言场景进行溯源重构,利用Fabric联盟链构建区块链网络,利用区块链的不可篡改性、去中心化等特点实现网络谣言取证,为网络谣言追责取证以及辟谣提供相关证据,构建和谐社交媒体。并可通过关键词构建知识图谱,并基于该知识图谱实现热点事件的跟踪,谣言溯源重构,进而可以通过Web可视化方式实现谣言场景重构展示,能够从微博原视数据到最终的可视化分析,数据、信息、情报知识与智慧层层递进,便于对网络谣言实施精确锁定、深化辟谣力度、威慑谣言犯罪。

作为本发明实施例中基于区块链的网络谣言溯源取证方法,进一步地,通过网络爬虫自动化获取社交文本实时数据。通过获取网络授权,使用网络官方平台API接口并利用网络爬虫自动化获取社交文本信息,实现社交文本的实时获取,不再依靠举报或管理员监管的方式进行疑似信息的取证,避免了处于萌芽阶段谣言的监管不力。

作为本发明实施例中基于区块链的网络谣言溯源取证方法,进一步地,二分类模型采用词向量BERT和双向长短时记忆网络BiLSTM模型作为二分类谣言鉴别模型,首先利用词向量BERT进行预训练,将自然语言字词转化为计算机识别运算向量,然后使用双向长短时记忆网络BiLSTM模型对词向量BERT输出进行判断筛选,利用判断筛选结果鉴别出谣言数据,其中,判断筛选中,通过对输入特征向量分别采用顺序和逆序计算得到两套隐层表示,将两套隐层表示拼接,并利用softmax层输出归属谣言类型的概率矩阵。

随着深度学习在自然语言中的应用,神经网络的方法大大改善了自然语言处理中各项任务的性能,其中以卷积神经网络(CNN),循环神经网络(RNN),长短时记忆网络(LSTM)最为普遍和高效,近些年也提出多种新方法、新模型,如Transformer模型,self-attention机制,以及基于Transformer的自编码机制(BERT)。LSTM的全称是Long Short-TermMemory,它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。BiLSTM是Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。如图4所示的BiLSTM模型结构,将词的表示组合成句子的表示,可以采用相加的方法,即将所有词的表示进行加和,或者取平均等方法,但是这些方法没有考虑到词语在句子中前后顺序。因为LSTM通过训练过程可以学到记忆哪些信息和遗忘哪些信息,使用LSTM模型可以更好的捕捉到较长距离的依赖关系。但是利用LSTM对句子进行建模也存在一个问题:无法编码从后到前的信息。而通过BiLSTM可以更好的捕捉双向的语义依赖。本案实施例中,采用能解决短时依赖问题与长时依赖问题的双向长短时记忆网络(BiLSTM)模型构成谣言自动化检测的核心,其主要功能为:关键信息提取与谣言筛选。此模块采用认知智能与感知智能相结合的方式,首先采用BERT进行词向量预训练,过滤无用信息,之后使用BiLSTM针对词向量进行判断与筛选,完成谣言的自动化检测。在对BiLSTM训练的过程中,对微博辟谣平台的数据进行挖掘,作为样本供BiLSTM学习,能够兼顾谣言鉴别的准确率与效率。

作为本发明实施例中基于区块链的网络谣言溯源取证方法,进一步地,二分类模型训练中,首先利用样本数据划分为肯定谣言样本和否定谣言样本,分别利用肯定谣言样本和否定谣言样本对二分类模型进行训练,得到肯定模型和否定模型;然后,利用谣言鉴别的测试样本数据中的肯定谣言样本和否定谣言样本对肯定模型和否定模型进行测试,依据肯定模型和否定模型预测正确率平均数作为模型优化约束条件来获取训练后的二分类模型。

自然语言处理任务中,往往需要对文本序列进行词嵌入处理处理得到词向量序列作为模型的输入。常见的词向量预训练模型有word2vec,FastText,BERT等,其中BERT的预训练模型主题结构是双向Transformers编码器,利用注意力机制,经过双层编码器后,模型可以学习到每个单词前后文本的信息和语意特征,从而获得更完整的词向量表示。如图5所示,BERT词向量能更好的处理近义词,以及挖掘上下文语意,本系统尝试使用BERT模型提取微博文本语意特征表示。自注意力机制是BERT编码器的主要模块,使用如下公式的Attention函数:

K、V为字向量矩阵,dk为向量维度。

本案实施例中,参见图6所示,采用BERT模型进行数据预处理,将自然语言字词转化为计算机可以识别运算的向量,具体的方法描述为,将文档中的一行抽取为一个句子,对每个句子进行分词,获得每个词的词向量,通过对词向量进行加权,计算该句子的句向量,同理可以计算整个文档文本向量。因此一个普通的自然语言文档经过BERT处理后生成一个768维的向量,这个向量就是模型的输入。例如,选取训练集中的一条谣言文本数据,未处理的文本数据和预处理得到的n维的向量如图7所示,其中每一个向量有768个元素。

BiLSTM神经网络模型鉴别谣言,有效的解决了RNN中梯度消失或爆照的问题,相比较RNN,能记住更长的信息,学习长期依赖关系,在文本处理中具有较好的效果。细胞结构中Sigmoid激活函数:门结构中包含着sigmoid激活函数。Sigmoid激活函数与tanh函数类似,不同之处在于sigmoid是把值压缩到0~1之间而不是-1~1之间。这样的设置有助于更新或忘记信息,因为任何数乘以0都得0,这部分信息就会剔除掉。同样的,任何数乘以1都得到它本身,这部分信息就会完美地保存下来。这样网络就能了解哪些数据是需要遗忘,哪些数据是需要保存。遗忘门:决定从细胞状态里剔除掉什么信息(也就是保留多少信息)。将上一步细胞状态中的信息选择性的遗忘。遗忘门的公式为:ft=σ(Wf·[ht-1,xt]+bf),其中σ表示sigmoid函数,输出的值为0-1。通过sigmoid层实现“遗忘门”,以上一步输出结果ht-1和当前输入信息xt作为输入,通过sigmoid函数计算得到结果,记为ft,表示保留多少信息(1代表完全保留,0表示完全舍弃)。输入门:输入门用于更新细胞状态。首先将前一层隐藏状态的信息和当前输入的信息传递到sigmoid函数中去。将值调整到0~1之间来决定要更新哪些信息。0表示不重要,1表示重要。其次还要将前一层隐藏状态的信息和当前输入的信息传递到tanh函数中去,创造一个新的侯选值向量。最后将sigmoid的输出值与tanh的输出值相乘,sigmoid的输出值将决定tanh的输出值中哪些信息是重要且需要保留下来的。

输入门的公式为:it=σ(Wi·[ht-1,xt]+bi),细胞状态:下一步,就是计算细胞状态。首先前一层的细胞状态与遗忘向量逐点相乘。如果它乘以接近0的值,意味着在新的细胞状态中,这些信息是需要丢弃掉的。然后再将该值与输入门的输出值逐点相加,将神经网络发现的新信息更新到细胞状态中去。至此,就得到了更新后的细胞状态细胞状态更新公式为:其中ft为遗忘门所得结果,表示信息的保留量,ft越趋近于0表示上一状态需要遗忘的值越;Ct-1为上一个细胞状态;it表示本细胞输入的保留量,越接近0表示需要保留的信息越少,表示当前状态的输入门的输出值。公式本质表示当前细胞状态为上层细胞保留信息于当前状态输入信息之和。输出门:输出门用来确定下一个隐藏状态的值,隐藏状态包含了先前输入的信息。首先,我们将前一个隐藏状态和当前输入传递到sigmoid函数中,然后将新得到的细胞状态传递给tanh函数。最后将tanh的输出与sigmoid的输出相乘,以确定隐藏状态应携带的信息。再将隐藏状态作为当前细胞的输出,把新的细胞状态和新的隐藏状态传递到下一个时间步长中去。输出门的公式为:ot=σ(Wo·[ht-1,xt]+bo),ht=ot*tanh(Ct),ot通过sigmoid函数处理上一个细胞的输出ht-1,得到值0-1,用于表示最终输出的保留,当前细胞态Ct经过tanh函数后于ot相乘,得到最终的输出ht。双向LSTM(BiLSTM)网络,相比普通LSTM,底部的网络接收原始顺序的序列,而顶部的网络按相反顺序接收相同的输入,这两个网络不一定完全相同,但它们的输出被合并为最终的预测,可以提高序列分类问题的模型性能。

通过获取“微博辟谣平台”的谣言数据,以及随机抽取普通用户发布的微博数据作为BERT+BiLSTM模型的数据集,并使用其对模型进行训练。训练流程如下:

首先,对训练数据进行人工标注,标注是否为谣言,之后对其进行分词,并使用BERT模型对其进行词向量表示,最后将转化成的向量传入BiLSTM神经网络。根据肯定谣言样本和否定谣言样本分别训练出覆盖肯定谣言样本的BiLSTM模型与覆盖否定谣言样本的BiLSTM模型,简称为肯定模型与否定模型。

然后,同样对测试数据进行人工谣言鉴别,分为肯定谣言样本和否定谣言样本;然后分别对其进行分词和BERT词向量化;最后将转化成的向量表示分别传入肯定模型与否定模型。通过每个模型,都会得到一个概率值,所以最后得到的是一个2*2的矩阵,对角线上的元素即是肯定模型、否定模型预测正确的概率。可取平均数作为BiLSTM模型对谣言鉴别分析的正确率。

作为本发明实施例中基于区块链的网络谣言溯源取证方法,进一步地,有效性检测包含:验证数据中是否有语法及逻辑错误。以交易形式打包谣言数据,并对其进行有效性检测,有效性检测主要验证有无语法错误与逻辑错误,若验证合法则通过peer结点将谣言相关数据全部上传至去区块链网络。

作为本发明实施例中基于区块链的网络谣言溯源取证方法,进一步地,分布式文件IPFS系统存储原文中,通过预先制定的用户访问控制策略对上传用户身份验证,验证通过后将谣言原文进行加密,并将加密文件上传至分布式文件IPFS系统;分布式文件IPFS系统根据谣言原文计算该谣言原文对应的哈希值,通过调用智能合约将该哈希值及谣言相关数据存储至区块链网络上。进一步地,访问文本时,通过智能合约及用户访问控制策略获取相应用户权限,符合访问权限的用户获取访问请求对应的本文哈希值,利用该文本哈希值调取对应的分布式文件IPFS系统文本原文。

谣言存储技术核心为Fabric区块链以及IPFS技术,Fabric与IPFS之间使用文本Hash值相连,IPFS系统中文件地址为文件Hash值,并将此Hash值存储值区块链网络中对应的区块之上,需要访问文件时,只需通过智能合约查询对应的Hash值,提升了Fabric网络的存储效率;同时Fabric网络的身份认证机制保证了Hash值只会发送给通过身份权限认证的使用者。参见图8所示,其存储流程可设计如下:

Step1:系统管理员制定用户访问控制策略acpi,通过身份验证后将微博谣言正文文件Fi进行加密,形成密文Ci上传到IPFS;

Step2:IPFS根据微博谣言文件Fi计算出唯一的hash值hashi并返回给谣言取证系统,然后取证系统调用智能合约将该hashi和其他微博发布信息以交易的形式存储在Fabric区块链上;

Step3:系统可以根据该hashi验证版权,查看音乐内容是否发生篡改,同时允许其他用户访问微博谣言数据;

Step4:普通用户要获取Fi,首先要通过请求区块ID来获取链上存储的hashi,当满足用户访问策略后才能根据该唯一的hashi在IPFS中查询到所需内容,通过解密文件获取数据。

谣言文本文件加密后存入IPFS,实现文件的分布式共享存储。同时,数据上传的交易信息在全网节点广播验证后写入区块链,保证交易信息不可篡改。

作为本发明实施例中基于区块链的网络谣言溯源取证方法,进一步地,区块链网络中以<k,v>键值对形式存储相关数据,其中,数据用户ID作为主键,该主键下存储与该数据用户ID相关的所有信息;分布式文件IPFS系统中以数据块形式存储与哈希值地址一一对应的的数据块;数字签名中,以SM2加密算法作为公钥算法生成公私钥对对用户个人隐私信息进行加密,以SM3加密算法作为散列算法生成区块链区块地址并进行散列计算,获取签名数据。

Fabric账本结构指的是Fabric网络中相应通道中Peer节点存储数据的格式,如图9所示。Fabric以<k,v>键值对的形式存储及查询数据,因此微博ID和用户UID作为主“键”,所有信息存于该键下(采用Json嵌套格式)。这样,每个ID下存储所有该ID相关的所有信息。当查询时,使用唯一ID值便可查出所有该ID下的值。IPFS中存储所有源数据的数据块,数据块存储没有顺序,只是每个数据块与hash地址的关系一一对应,如图10所示,而hash地址与具体信息的映射关系存储于Fabric区块链中。

在比特币诞生之初,区块链上的ECDSA算法多数是基于SECP256K1曲线的构造,该曲线因具备自同态映射的特性可加速消息验签过程曾备受青睐。不过随着工程应用的更迭,基于这种曲线的签名算法也暴露出诸多缺点,如总体算法结构冗杂、易遭受侧信道攻击与信息隐私性差等。SM2椭圆曲线公钥密码算法是我国自主设计的公钥密码算法,包括SM2-1椭圆曲线数字签名算法,SM2-2椭圆曲线密钥交换协议,SM2-3椭圆曲线公钥加密算法,分别用于实现数字签名密钥协商和数据加密等功能。SM2算法也可与SM3算法进行整合,使用SM3实现SM2算法中计算Hash等步骤。SM2算法在安全性与速度上优于ECDSA算法,所以本案实施例中,使用SM2-SM3算法替换ECDSA,提升链上交易的安全性与速度。在谣言数据传输安全方面,相比于传统的RSA加密算法,SM2加密算法签名速度快,密匙长度短,所需空间与传输资源少,抗攻击性强,安全性与RSA2048持平。因此,本案实施例使用SM2加密算法解决了传统区块链在安全性,传输速率慢,传输效率低,以及资源消耗大等方面的问题。传统区块链使用MD5作为散列算法,其已被证明不具备强抗碰撞性,SM3具备更高的安全性。本案实施例中,使用SM2-SM3的数字签名算法,提升系统的性能以及安全性。在谣言存储中IPFS网络与用户的信息交互过程中,存储端IPFS接收用户基于SM2生成的公钥对发送的信息进行加密,确保数据传输的安全性,用户使用私钥对接收的信息进行解密,通过SM2加密算法实现高速、安全的数据传输,参见图11所示,部分加密过程可设计如下:

基本符号:SM2的曲线方程为y2=x3+ax+b,符号说明:

表1四种模型的性能指标

(1)生成密钥对

Step1:利用随机数发生器生成整数h∈(1,n-2);

Step2:G为基点,计算点Q=(xQ,yQ)=[h]G;

则私钥为h,公钥为Q

(2)预处理

Step1:输入用户身份信息表示ID和用户的公钥Q=(xQ,yQ);

Step2:通过公式Z=SM3(EMTL||ID||a||b||xG||yG||xQ||yQ)计算得到中间参量;

Step3:输入中间参量Z和待签名消息M;

Step4:通过计算公式H=SM3(Z||M)计算得到中间参量H;

(3)生成签名

Step1:输入签名者私钥h、预处理的结果H和待签名消息M

Step2:置

Step3:计算哈希值将e的数据类型转化为整数;

Step4:使用随机数发生器生成随机数k∈[1,n-1];

Step5:计算椭圆曲线点(x1,y1)=[k]G,x1转化为整形;

Step6:计算r=(e+x1)mod n,若r≡0mod n或r+k=n则返回第4步;

Step7:计算s=((1+h)-1·(k-r·h))modn,若s=0则返回第4步;

Step8:将(r,s)转化为字符串;

最终所得消息M的签名即为(r,s)。

作为本发明实施例中基于区块链的网络谣言溯源取证方法,进一步地,针对谣言原文,利用双向LSTM网络模型获取包含命名实体识别和谣言事件摘要信息的谣言相关数据,具体包含:对输入的谣言原文依次预处理和词语编码,并送入双向LSTM网络模型获取文本候选关键词,依据文本候选关键词重要程度选取关键词,将选取的关键词和谣言原文送入Attention机制中以每个关键词为中心来抽取周围上下文获取文本摘要信息。

在实体抽取的时候,首先对输入文档进行预处理,包括过滤、标准化等处理步骤,得到词序列列表。在得到词序列后利用预训练词嵌将词语转换为连续向量,以得到词语的语义表示,可采用BERT方法来对单词进行词嵌表示。在将词表示为向量后,就可以传入深度神经网络模型来进行训练。由于一个句子中词的个数不同,因此,可采用固定长滑动窗口的方式来进行一次输入固定长的词序列向量。在深度神经网络模型中,主要包括Embedding层(词序列向量分布特征)、双向RNN层、卷积层、Tanh隐含层和CRF层,模型的最后输出就是词的序列标签,最后根据标签结果得到相关的实体信息。结构流程主要为:编码->编码向量->译码。首先将长句转化成词向量,再将词向量通过加权抽取模型,得到新的简化词向量,最后将所得向量重新译码得到最终的句子。编码器由一系列LSTM单元组成,接受输入序列并将信息封装为内部状态向量。解码器使用编码器的输出和内部状态。编码向量作为编码阶段最终隐藏的中间向量,也是译码阶段最初的隐藏向量,其封存了初始文本的所有信息。译码器是由循环单元组成的堆栈,其中每个循环单元从前一个单元接受一个隐藏状态,并产生和输出它自己的隐藏状态。在摘要问题中,输出序列是来自摘要文本的所有单词的集合。每个单词都表示为yi,其中i是单词的顺序。任意隐藏状态hi的计算公式为:ht=f(W(hh)ht-1)译码器最终给出文本摘要信息。attention模型用于解码过程中,它改变了传统decoder对每一个输入都赋予相同向量的缺点,而是根据单词的不同赋予不同的权重。在encoder过程中,输出不再是一个固定长度的中间语义,而是一个由不同长度向量构成的序列,decoder过程根据这个序列子集进行进一步处理。在处理摘要问题时,Attention机制被用于关联输出摘要中的每个词和输入中的一些特定词。

摘要信息提取用于文本的摘要信息,从而方便了解信息的概要,如图12和13所示,在送入原始文本之前,对原始文本进行分词、去停用词等处理,在对长文本中的词语进行编码后,先将它送入双向LSTM网络中,得到长文本中的关键词语,按照关键词的重要程度,我们选取前3个关键词。在获取了长文本中的三个关键词之后,我们将关键词和处理后的原始长文本一起送到Attention中,提高对关键词在文本中位置的关注信息,然后送入全链接网络中,以每个关键词为中心,抽取它周围的上文,最后将三个主题句结合在一起,得到长文本的摘要。本案实施例中,以关键词为中心读文本的摘要进行提取,对长文本的信息得到更全面的关注,以往的很多模型都是直接提取文本的前几句话作为对文本中心思想的概括,但是很多单单提取文本的前几句话得到的效果不是很理想,本案实施例中提高对整个文本给予不同的关注度,从不同部分提取关键词所对应的主题思想,形成较精准的摘要信息。

进一步地,基于上述的方法,本发明实施例还提供一种基于区块链的网络谣言溯源取证系统,包含:鉴别模块、检验模块、存储模块和查询挖掘模块,其中,

鉴别模块,用于针对社交文本数据,利用已训练的二分类模型鉴别属于谣言的文本数据;

检验模块,用于对属于谣言的文本数据以交易形式打包谣言本文数据,并对打包后谣言数据的有效性进行检验;

存储模块,用于针对将验证合法的谣言数据,将谣言原文加密存储至分布式文件IPFS系统,并通过调用智能合约将分布式文件IPFS系统文件地址及谣言相关数据以交易形式广播并存储在由Fabric联盟链构建的区块链网络上;

查询挖掘模块,用于通过数字签名被授予权限的相关用户从区块链网络中获取与谣言相关的数据信息以及谣言原文,将用户及谣言信息作为实体,依据实体之间的关系,构建谣言知识图谱,其中,实体之间的关系至少包含:发布、转发、评论及关注;利用谣言知识图谱挖掘谣言散播途径并定位相关责任人。

系统整体可采用B/S架构,服务器群组由区块链及IPFS数据库、知识图谱服务器和多台取证服务器组网组成,前端基于JavaScript设计,采用Echart实现数据可视化。如图14所示,多台取证服务器以节点的方式构成区块链网络,其中将谣言信息的hash值等信息以交易记录方式存储,构成数据链。多台取证服务器组成的区块链网络具有去中心的分布式特性,不同取证服务器负责不同微博文本信息的提取,同时,它们共同负责谣言的鉴别与谣言信息的存储,只有多台服务器公认为谣言的微博文本才会被判定为谣言。分布式的结构不仅提升了取证的效率与谣言鉴别的准确率,也提升了系统的抗风险能力,一台服务器的损坏不会影响整个系统的运作。区块链和IPFS系统之间通过区块链上存储的hash值相互连接,区块上的hash与IPFS所记录的谣言数据一一对应。采用链上存储hash值,链下存储谣言文本信息的方式,一方面降低区块链存储、传输压力,解决区块链网络存储传输效率不足的问题,另一方面,链下信息的访问、上传、更改必须经过链上区块链网络的数字签名过程和身份认证过程,链下IPFS中存储的谣言数据拥有与区块链数据等同的不可篡改性和安全性。知识图谱服务器通过智能合约自动化访问区块链网络,提取谣言基本信息并构建谣言知识图谱。由知识图谱服务器访问区块链网络获取谣言信息,而不是直接由取证服务器发送至知识图谱服务器,这样的设计一方面确保取证服务器获取的证据第一时间上链存储,避免了传输过程中被篡改的风险,另一方面保证了所有对谣言数据的操作皆经由区块链网络,被区块链网络记录。Web服务器是用户与数据交互的桥梁,利用Echart可视化工具将抽象的数据、关系转化为直观的图表。工作流程可参见图15所示,提取谣言,多台分布式取证服务器根据不同的用户授权信息库,利用微博API及用户Access Token对新发布的微博文本、微博基本信息及用户信息进行扫描,形成对用户发布微博的实时提取;鉴别谣言,取证服务器将微博文本数据预处理后发送至相应背书结点,背书结点由谣言鉴别服务器组成,对取证服务器进行背书,鉴别预处理后的微博文本是否为谣言,若判断为谣言,则以交易形式打包谣言数据,并对其进行有效性检测,有效性检测主要验证有无语法错误与逻辑错误,若验证合法则通过peer结点将谣言相关数据全部上传至去区块链网络;存储谣言数据,取证服务器通过调用智能合约将微博数据的hash值及关键摘要以交易的形式广播并存储在区块链网络上,此时IPFS系统中存储微博谣言原文,区块链网络上存储的为经NLP(自然语言处理)处理得到的结构化数据,以及微博原文在IPFS系统中的地址;构建谣言知识图谱,知识图谱服务器从区块链网络中获取与谣言相关的数据信息以及谣言原文,将用户及谣言信息作为实体,将发布、转发、评论、关注等作为实体之间的关系,基于Neo4j图数据库实现知识存储,基于protege工具实现知识表示及知识推理,挖掘谣言散播途径,定位相关责任人,采用先上传再分析的流程,避免了谣言信息上链过程中遭受篡改,同时保证了所有对谣言信息的访问皆通过区块链网络,便于权限控制和身份认证;谣言重构与传播过程重现,Web服务器使用Echart将知识图谱及推理结果直观展示给用户,用户在输入查询之后,谣言专用知识图谱会将查询内容与知识图谱进行归一化匹配,所得匹配结果会作为关键词,通过智能合约向网络层发出查询请求。查询结果经Echart可视化,将谣言传播过程中的关键节点及其关联关系呈现给用户。除此之外,服务器会定时更新热点谣言信息,将一段事件内持续发酵的谣言信息直接呈现给用户,一定程度上阻止热点谣言的传播。

为验证本案方案有效性,下面结合试验数据做进一步解释说明:

利用微博谣言数据集(谣言数:3897,非谣言数:3281,总数:7179)进行模型预训练。实验结果:通过对BERT+LSYM的测试得出本系统对文本的处理效率较高,速度较快,对文本的预处理达到秒级,对文本进行谣言检测分类的速率是毫秒级,完整处理速率为秒级。

如图16所示,对于不同级别的数据以及输入速率,LSTM都能再较短的时间内进行知识抽取,当数据量逐渐增大时,处理速率发生略微下降,同时测试集上表现出较高的准确率,说明本案方案可以较为准确的对文本进行无监督知识抽取,且当数据量增大时,准确并未下降,说明其拥有强大的泛化性,效率较高。

如图17中(a)所示,在每秒50、100、150tps作为输入的条件下,对系统处理延迟以及输出吞吐量的影响,可以看出,在50tps作为输入的条件下,系统中只需不到1秒便可处理一次文本并进行确认,且输出速率未受影响。随着输入速率的提升,交易确认延迟明显上升,且输出交易速率稳定在90tps左右。(b)所示,针对LIP-Chain原型系统,记录了在50tps作为输入的条件下,连续执行1000次操作后,各主要进程及虚拟容器的资源占用情况。(1000次处理后,网络流量消耗最高的组织节点约消耗20M流量,(c)显示本案中各主要功能模块平均CPU占用均不高于20%,(d)显示本系统各主要模块平均内存占用在100-150M左右,图中EP、OP分别代表背书节点与组织节点。由此可见,本案方案由于采用了联盟链架构和模块化设计,各主要模块的资源消耗较低,能适应大数据文本处理业务场景的需求。实验在单台机器上使用Docker技术模拟了多个节点,由于使用单一进程进行通信,系统吞吐量最终被限制在90tp上下。在实际应用场景中,使用更高性能的物理机器充当节点并釆取多进程并发处理机制,系统吞吐量有望达到数百甚至上千次文本处理次数每秒,从上述结果可以看出,系统运行开销较小,基本满足目前微博谣言处理需求。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的方法和/或系统,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。

基于上述的方法和/或系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的方法。

在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

26页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:网页的风险检测方法、装置、计算机设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!