一种新闻内容安全监测方法、系统、装置和存储介质

文档序号:907626 发布日期:2021-02-26 浏览:19次 >En<

阅读说明:本技术 一种新闻内容安全监测方法、系统、装置和存储介质 (News content safety monitoring method, system, device and storage medium ) 是由 康维 舒斌 贺弘联 方华 孔泽平 王冠华 周珞 肖顺红 陈光林 周欣霓 谢宇 于 2020-11-19 设计创作,主要内容包括:本申请涉及一种新闻内容安全监测方法、系统、装置和存储介质,包括建立监测词列表,监测词列表内包含错别字、敏感词和红标词;依次调取所述监测词列表内的错别字、敏感词和红标词,与新闻内容匹配;若新闻内容存在监测词列表内的错别字、敏感词和红标词,则根据出现的监测词做出不同级别的警报提示,以提示编辑对所述新闻内容修改;获取并识别所述新闻内容中的图片和视频,根据图片和视频做相关处理;发送修改后的新闻内容至主编端,以提示主编对所述新闻内容人工检查,修改后的新闻内容确认无误后对修改后的新闻内容进行发布。本申请具有减小新闻发布内容的错字、敏感词和红标词的几率,提高用户的阅读体验效果。(The application relates to a news content safety monitoring method, a system, a device and a storage medium, which comprises the steps of establishing a monitoring word list, wherein the monitoring word list contains wrongly written characters, sensitive words and red-marked words; sequentially calling wrongly-written characters, sensitive words and red mark words in the monitoring word list, and matching the wrongly-written characters, the sensitive words and the red mark words with news contents; if the news content has wrongly written characters, sensitive words and red mark words in the monitoring word list, alarm prompts of different levels are made according to the appearing monitoring words so as to prompt editing to modify the news content; acquiring and identifying pictures and videos in the news content, and performing related processing according to the pictures and the videos; and sending the modified news content to a main editing end to prompt the main editing to manually check the news content, and releasing the modified news content after the modified news content is confirmed to be correct. The method and the device have the advantages that the probability of wrong words, sensitive words and red-marked words of news release contents is reduced, and the reading experience effect of a user is improved.)

一种新闻内容安全监测方法、系统、装置和存储介质

技术领域

本申请涉及新闻内容监测的领域,尤其是涉及一种新闻内容安全监测方法、系统、装置和存储介质。

背景技术

在新闻稿件编写过程中,编辑难免会存在写错别字的情况,甚至编辑会不小心发布一些存在敏感词或红标词的内容,现在一般均由编辑写完自己检查内容,再由给主编检查,检查无误后即发布新闻内容。

但是人为检查出错几率较大,且影响因素较多,例如编辑或主编当天精神状态不好,检查效果不佳,导致带有错别字、敏感词和红标词的稿件发布到网络上。

现在网络传播速度快,传播面广,若发布的新闻内容出现错别字、敏感词和红标词,容易带来不好的谬论影响,同时影响网友的阅读体验。

发明内容

为了减小新闻发布内容的错字、敏感词和红标词的几率,本申请提供一种新闻内容安全监测方法、系统和装置。

第一方面,本申请提供的一种新闻内容安全监测方法,采用如下的技术方案:

一种新闻内容安全监测方法,包括:

建立监测词列表,所述监测词列表内包含错别字、敏感词和红标词;

依次调取所述监测词列表内的错别字、敏感词和红标词,与新闻内容匹配;

若所述新闻内容存在所述监测词列表内的错别字、敏感词和红标词,则根据出现的监测词做出不同级别的警报提示,以提示编辑对所述新闻内容修改;

获取并识别所述新闻内容中的图片或视频,根据所述图片或所述视频做相关处理,所述相关处理包括根据所述图片或所述视频的类别对所述图片或所述视频做打码或删除处理;

发送修改后的新闻内容至主编端,以提示主编通过所述主编端对所述新闻内容人工检查,所述修改后的新闻内容确认无误后对所述修改后的新闻内容进行发布。

通过采用上述技术方案,当编辑写完一篇新闻稿时,对这篇新闻稿做内容安全监测,将监测词列表中的监测词调取并对新闻稿的文本进行匹配,若在新闻稿中出现监测词,则针对不同的监测词做不同的警报提示,以提醒编辑对新闻稿做修改;监测词包含错别字、敏感词和红标词,其中敏感词表示国家领导人姓名、国家重要机构领导人、省市县歌曲领导和机构领导人、某些敏感事件等,红标词表示带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明词等,若新闻稿中出现这类词语,监测出后提示编辑对新闻内容及时进行修改,避免不慎将带有这类词语的新闻稿发布,造成不好的谬论影响;服务器同时对新闻内容中的图片和视频做相关处理,避免新闻稿中的图片和视频出现违规现象;当编辑将新闻稿修改好后,将新闻稿发送至主编,以使主编人工检查,避免出现未监测到的违规词语、图片或视频,进一步降低新闻稿出现违规词语、图片或视频的现象,进一步避免造成不好的谬论影响,同时进一步提高阅读者的阅读体验。

本发明在一较佳示例中可以进一步配置为:所述获取并识别所述新闻内容中的图片,根据所述图片做相关处理包括:

对各图片类别准备对应的预设数量的样本图片,并标定每一样本对应的图片类别;

利用所述样本图片对预设类型的识别模型进行训练;

获取所述新闻内容中的图片;

将所述图片输入至所述识别模型中进行识别,并输出识别结果;

根据所述识别结果对所述图片做相关处理;

若所述识别结果为所述图片出现人物露脸,则对所述图片出现人物的面部进行打码;

若所述识别结果为所述图片出现暴力,则删除所述图片。

通过采用上述技术方案,先根据多个样本图片进行训练,并分别标记识别模型的不同类别,再将新闻内容中的图片输入至识别模型中,从而判断该图片的类别,若该图片出现人物露脸,应对该图片的人物面部进行打码,避免新闻内容侵犯肖像权;若该图片为暴力图片,应删除该图片,避免编辑不慎将暴力图片发至网络,造成不好的影响。

本发明在一较佳示例中可以进一步配置为:所述获取并识别所述新闻内容中的图片,根据所述图片做相关处理还包括:

获取所述图片;

将所述图片与云服务器中的图片比对;

获取所述云服务器中与所述图片相同的所有网站;

获取所述所有网站的图片发布日期,选出发布日期最早的网站图片的作者;

对所述新闻内容中的图片下方标注转自所述作者。

通过采用上述技术方案,获取新闻内容中的图片,以根据图片在云服务器搜索一样的图片,并找到发布这些相同图片的所有网站,再获取所有网站中对于图片发布日期最早的那一个,则判定该网站的图片发布为源文件,则自动在本新闻内容的图片下方标明图片或视频转自改为昂展的作者,避免本新闻内容发布后出现侵权现象。

本发明在一较佳示例中可以进一步配置为:所述获取并识别所述新闻内容中的视频,根据所述视频做相关处理还包括:

获取所述视频的所有帧图像,并识别所述帧图像的对应像素值;

比对相邻所述帧图像的对应像素值,若相邻所述帧图像的对应像素值差值大于预设值,则提取两张相邻所述帧图像的后一帧图像,并定义所述后一帧图像为场景帧;

获取所述云服务器中同时包含所有所述场景帧的视频的网站;

获取所述网站的视频发布日期,选出发布日期最早的网站视频的作者;

对所述新闻内容中的视频下方标注转自所述作者。

通过采用上述技术方案,获取新闻内容中的视频的所有帧图像,并根据所有帧图像中每相邻两帧的像素值比对,找出视频中每次场景转换的第一帧,并定义该帧为场景帧,根据该视频中的所有场景帧,匹配云服务器中所有视频,找出同时包含所有场景帧的视频,并根据找出的相同或视频,获取发布该相同视频最早的网站,则判定该网站的视频为源文件,则自动在本新闻内容的视频下方标明图片转自该网站的作者,避免本新闻内容发布后出现侵权现象

本发明在一较佳示例中可以进一步配置为:所述发送修改后的新闻内容至主编端后包括:

主编端接收所述修改后的新闻内容,以使主编通过所述主编端对所述修改后的新闻内容进行人工检查;

若发现出现新的错别字、新的敏感词和新的红标词,主编端对所述新的错别字、所述新的敏感词和所述新的红标词进行标记并将所述新的错别字、所述新的敏感词和所述新的红标词补充至所述监测词列表;

将进行标记后的新闻内容发送至所述编辑端,以使编辑对所述标记后的新闻内容进行修改。

通过采用上述技术方案,当新闻内容修改完后,还需主编对修改后的新闻内容再做一次人工检查,避免出现某些词语未被监测到的情况,若出现新的错别字、敏感词或红标词,主编对新的错别字、敏感词或红标词补充到监测词列表内,避免编辑出现同样的错误后,服务器依旧未能监测到,不断对监测词列表进行更新,进一步降低新闻内容出现错别字、敏感词或红标词的几率。

本发明在一较佳示例中可以进一步配置为:当编辑端对所述新闻内容修改完成后,所述方法还包括:

提取所述新闻内容的关键词,根据所述关键词与所述云服务器中的新闻内容匹配;

选择匹配度大于预设值的新闻内容的网站,获取所述网站中新闻内容的发布时间;

获取所述编辑端对所述新闻内容修改完成后的时间,将所述时间与所述发布时间比对,若差值大于预设值,则判定所述修改后的新闻内容不具备时效性。

通过采用上述技术方案,根据写好的新闻内容,提取新闻内容的关键词,关键词可为标题和新闻内容中常出现的词语,根据关键词在云服务器中搜索相似的新闻,并获取相似新闻的发布时间,如果新闻发布时间过早,则代表本新闻内容不具备时效性,则这篇新闻内容再发布的意义不大,编辑可将这篇新闻稿存档,若以后出现相类似的新闻事件,可再将这篇新闻稿的内容提出,结合过去的新闻内容发布,丰满新闻内容。

本发明在一较佳示例中可以进一步配置为:当编辑端对所述新闻内容修改完成后,所述方法还包括:

提取所述修改后的新闻内容的关键词,根据所述关键词与所述云服务器中搜索次数排名较高的新闻内容进行匹配;

若所述修改后的新闻内容与所述搜索次数排名较高的新闻内容相匹配,则生成高热度标识,并发送至主编端,以使主编将所述修改后的新闻内容发布至显示端较为醒目的位置。

通过采用上述技术方案,根据本新闻内容的关键词,在云服务器中搜索匹配搜索次数排名较高的新闻内容,若相匹配,则判定本新闻内容与时事热点较为贴近,则认为这篇新闻稿具有较高的曝光意义,则提示主编将新闻那内容发布至较为醒目的位置,以提高点击率。

第二方面,本申请提供的一种新闻内容安全监测系统,采用如下的技术方案:

一种新闻内容安全监测系统,包括:

创建装置,建立监测词列表,所述监测词列表内包含错别字、敏感词和红标词;

匹配装置,依次调取所述监测词列表内的错别字、敏感词和红标词,与新闻内容匹配;

警报装置,若所述新闻内容存在所述监测词列表内的错别字、敏感词和红标词,则根据出现的监测词做出不同级别的警报提示,以提示编辑对所述新闻内容修改;

处理装置,获取并识别所述新闻内容中的图片和视频,根据所述图片和所述视频做相关处理;

第一判断装置,提取所述新闻内容的关键词,根据所述关键词与所述云服务器中的新闻内容匹配;选择匹配度大于预设值的新闻内容的网站,获取所述网站中新闻内容的发布时间;获取所述编辑端对所述新闻内容修改完成后的时间,将所述时间与所述发布时间比对,若差值大于预设值,则判定所述修改后的新闻内容不具备时效性;

第二判断装置,提取所述修改后的新闻内容的关键词,根据所述关键词与所述云服务器中搜索次数排名较高的新闻内容进行匹配;若所述修改后的新闻内容与所述搜索次数排名较高的新闻内容相匹配,则生成高热度标识,并发送至主编端,以使主编将所述修改后的新闻内容发布至显示端较为醒目的位置;

确认装置,发送修改后的新闻内容至主编端,以提示主编对所述新闻内容人工检查,所述修改后的新闻内容确认无误后对所述修改后的新闻内容进行发布。

通过采用上述技术方案,当编辑写完一篇新闻稿时,对这篇新闻稿做内容安全监测,将监测词列表中的监测词调取并对新闻稿的文本进行匹配,若在新闻稿中出现监测词,则针对不同的监测词做不同的警报提示,以提醒编辑对新闻稿做修改;监测词包含错别字、敏感词和红标词,其中敏感词表示国家领导人姓名、国家重要机构领导人、省市县歌曲领导和机构领导人、某些敏感事件等,红标词表示带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明词等,若新闻稿中出现这类词语,监测出后提示编辑对新闻内容及时进行修改,避免不慎将带有这类词语的新闻稿发布,造成不好的谬论影响;服务器同时对新闻内容中的图片和视频做相关处理,避免新闻稿中的图片和视频出现违规现象,若出现人物面部,则需对面部进行打码处理,若出现暴力图片或视频,则提醒编辑需删除暴力图片或视频;再在云服务器里搜索本新闻内容中要发布的图片和视频,找到发布时间最早的网站,并自动标识本新闻内容中的图片和视频是转自该网站的,避免侵权;再对本新闻内容进行时效性的判断,若已有相似的内容发布,且发布时间较早,则本新闻内容发布意义不大,则可以对本新闻稿进行存档,以备后续使用;再对本新闻内容是否贴合热点进行搜索,并根据本新闻是否贴合热点做出相应处理,若贴合热点,发布至醒目位置,以提高点击量;当编辑将新闻稿修改好后,将新闻稿发送至主编,以使主编人工检查,避免出现未监测到的违规词语、图片或视频,进一步降低新闻稿出现违规词语、图片或视频的现象,进一步避免造成不好的谬论影响,同时进一步提高阅读者的阅读体验。

第三方面,本申请提供的一种新闻监测装置,采用如下的技术方案:

一种新闻内容检测装置,包括:

创建模块,建立监测词列表,所述监测词列表内包含错别字、敏感词和红标词;

匹配模块,依次调取所述监测词列表内的错别字、敏感词和红标词,与新闻内容匹配;

警报模块,若所述新闻内容存在所述监测词列表内的错别字、敏感词和红标词,则根据出现的监测词做出不同级别的警报提示,以提示编辑对所述新闻内容修改;

处理模块,获取并识别所述新闻内容中的图片和视频,根据所述图片和所述视频做相关处理;

第一判断模块,提取所述新闻内容的关键词,根据所述关键词与所述云服务器中的新闻内容匹配;选择匹配度大于预设值的新闻内容的网站,获取所述网站中新闻内容的发布时间;获取所述编辑端对所述新闻内容修改完成后的时间,将所述时间与所述发布时间比对,若差值大于预设值,则判定所述修改后的新闻内容不具备时效性;

第二判断模块,提取所述修改后的新闻内容的关键词,根据所述关键词与所述云服务器中搜索次数排名较高的新闻内容进行匹配;若所述修改后的新闻内容与所述搜索次数排名较高的新闻内容相匹配,则生成高热度标识,并发送至主编端,以使主编将所述修改后的新闻内容发布至显示端较为醒目的位置;

确认模块,发送修改后的新闻内容至主编端,以提示主编对所述新闻内容人工检查,所述修改后的新闻内容确认无误后对所述修改后的新闻内容进行发布。

通过采用上述技术方案,当编辑写完一篇新闻稿时,对这篇新闻稿做内容安全监测,将监测词列表中的监测词调取并对新闻稿的文本进行匹配,若在新闻稿中出现监测词,则针对不同的监测词做不同的警报提示,以提醒编辑对新闻稿做修改;监测词包含错别字、敏感词和红标词,其中敏感词表示国家领导人姓名、国家重要机构领导人、省市县歌曲领导和机构领导人、某些敏感事件等,红标词表示带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明词等,若新闻稿中出现这类词语,监测出后提示编辑对新闻内容及时进行修改,避免不慎将带有这类词语的新闻稿发布,造成不好的谬论影响;服务器同时对新闻内容中的图片和视频做相关处理,避免新闻稿中的图片和视频出现违规现象,若出现人物面部,则需对面部进行打码处理,若出现暴力图片或视频,则提醒编辑需删除暴力图片或视频;再在云服务器里搜索本新闻内容中要发布的图片和视频,找到发布时间最早的网站,并自动标识本新闻内容中的图片和视频是转自该网站的,避免侵权;再对本新闻内容进行时效性的判断,若已有相似的内容发布,且发布时间较早,则本新闻内容发布意义不大,则可以对本新闻稿进行存档,以备后续使用;再对本新闻内容是否贴合热点进行搜索,并根据本新闻是否贴合热点做出相应处理,若贴合热点,发布至醒目位置,以提高点击量;当编辑将新闻稿修改好后,将新闻稿发送至主编,以使主编人工检查,避免出现未监测到的违规词语、图片或视频,进一步降低新闻稿出现违规词语、图片或视频的现象,进一步避免造成不好的谬论影响,同时进一步提高阅读者的阅读体验。

第四方面,本申请提供的一种计算机可读存储介质,存储有能够被处理器加载并执行上述任一种新闻内容安全监测方法的计算机程序。

综上所述,本申请包括以下至少一种有益技术效果:

1.本方案中,服务器对编辑写好的新闻内容进行安全监测,提取新闻内容的文本与监测列表的错别字、敏感词和红标词匹配,若出现错别字、敏感词和红标词,则需做出相关警示,以使编辑作出相应修改;

2.本方案中,服务器将编辑修改好的新闻内容做第一次判定,判定新闻稿是否具有时效性,若本新闻内容已被人多日前就发布,则将本新闻内容存档,以备之后使用;

3.本方案中,服务器将编辑修改好的新闻内容做第二次判定,判定新闻稿是否贴合实时热点,若贴合热点,则提示主编发布本新闻稿至较为醒目的位置,以吸引读者兴趣,增加提高点击率。

附图说明

图1是本申请其中第一实施例中的流程示意图框图。

图2是本申请其中第二实施例中的系统示意图。

图3是本申请其中第三实施例中的结构框图。

具体实施方式

以下结合附图1-3对本申请作进一步详细说明。

本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例作出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

本发明的实施例中,其中敏感词表示国家领导人姓名、国家重要机构领导人、省市县歌曲领导和机构领导人、某些敏感事件等,红标词表示带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明词等。

实施例一:

一种新闻内容安全监测方法,参考图1,包括:

101、建立监测词列表,所述监测词列表内包含错别字、敏感词和红标词。

具体的,获取大量的新闻文本数据、小说文本数据和杂志文本数据;

筛选出其中的错别字、敏感词和红标词;

提取这些词语,将这些词输入至监测词列表内;

通过后续出现的常见错误,对监测词列表进行补充。

102、依次调取所述监测词列表内的错别字、敏感词和红标词,与新闻内容匹配。

具体的,当编辑写好新闻稿,服务器对新闻内容进行监测,提取监测词列表内的错别字、敏感词和红标词,并将这些错别字、敏感词和红标词与新闻内容匹配,以监测新闻稿内是否出现错别字、敏感词和红标词。

103、若所述新闻内容存在所述监测词列表内的错别字、敏感词和红标词,则根据出现的监测词做出不同级别的警报提示,以提示编辑对所述新闻内容修改。

具体的,当监测到新闻内容中出现错别字、敏感词和红标词后,则发出不同级别的警报,若监测出新闻内容存在错别字,则发送修改消息至编辑端,以提示编辑对错别字进行修改;若监测出新闻内容存在敏感词,则对敏感词进行标黄,以提示编辑注意敏感词,斟酌是否对敏感词进行修改;若监测出新闻内容存在红标词,则发送禁止消息至编辑端,以提示编辑禁止发布新闻内容。其中,编辑端可为手机端或电脑端。

当监测出不同类型的监测词后,分别对不同类型的监测词作出不同的警报提示,出现错别字时,发送修改消息至编辑端,仅需要对错别字进行修改即可;出现敏感词时,对敏感词进行标黄,一方面是标黄更为显眼,警示效果更好,另一方面,是提示编辑对敏感词进行评判,是否可应用至该新闻内容中;出现红标词时,发送禁止消息至编辑,提高编辑的警惕心理,且表明具有红标词的内容严禁发布,提示该新闻内容的安全级别较低,需及时更改。

104、获取并识别所述新闻内容中的图片或视频,根据所述图片或所述视频做相关处理,所述相关处理包括根据所述图片或所述视频的类别对所述图片或所述视频做打码或删除处理。

具体的,获取该新闻内容中的图片或视频,并识别该图片或视频的类别,再根据类别做相关处理;例如该图片或视频的类别为暴力图片或视频,则对该图片或视频进行删除。

进一步的,对各图片类别准备对应的预设数量的样本图片,并标定每一样本对应的图片类别;

利用所述样本图片对预设类型的识别模型进行训练;

获取所述新闻内容中的图片;

将所述图片输入至所述识别模型中进行识别,并输出识别结果;

根据所述识别结果对所述图片做相关处理;

若所述识别结果为所述图片出现人物露脸,则对所述图片出现人物的面部进行打码;

若所述识别结果为所述图片出现暴力,则删除所述图片。

具体的,服务器获取各类别的大量样本图片,具体为暴力图片和人脸图片,若样本图片的数量足够多,则识别准确率相对越高;对所有样本图片进行标记,标记相应的图片类别为暴力图片或人脸图片;再用这些样本图片不断训练识别模型,使识别模型的识别结果不断精确,服务器将新闻内容中的图片输入至识别模型中,优选的,也可以为新闻内容中的视频的每一帧图像输入至识别模型中,对图片或视频进行判定,若判定为暴力图片,则删除该图片或视频;若判定为人脸图片,则提取该图片或视频,对图片或视频的人脸部分进行打码处理。

其中,识别图片或视频中的人脸部分具体为,利用人脸识别技术识别背景中的人脸位置和区域,对该位置进行打码处理。

其中,对图片和视频的格式不加以限定。

进一步的,获取所述图片;

将所述图片与云服务器中的图片比对;

获取所述云服务器中与所述图片相同的所有网站;

获取所述所有网站的图片发布日期,选出发布日期最早的网站图片的作者;

对所述新闻内容中的图片下方标注转自所述作者。

具体的,服务器先获取新闻内容中的图片,对图片进行特征提取,具体算法可为SIFT描述子,指纹算法函数,bundling features算法,hash function等,也可根据不同的图像,设计不同的算法,例如图像局部N阶矩的方法提取图像特征。

对图片的特征进行编码,并将云服务器中的图像编码做查找表,对于新闻内容中提取的图片,若该图片分辨率较大,则可对其进行降采样,减少运算量后在进行图片特征提取和编码处理。

利用新闻内容中的图片编码值,在图像搜索引擎中的图像数据库进行全局或是局部的相似度计算;根据所需的鲁棒性,设定阀值,然后将相似度高的图片预保存,再对所有相似度高的图片进行筛选较佳匹配图片,具体可用特征检测算法。

选出相似度较高的图片后,再获取这些图片的网站,对这些网站的图片发布时间进行抓取,并对这些网站的图片发布时间进行比对,选出最早发布的网站,并获取该网站中发布图片的作者ID,自动将该作者ID抓取并标注至本新闻内容中图片的下方,以示该图片转自该作者,避免新闻发布后,出现侵权的现象。

进一步的,获取所述视频的所有帧图像,并识别所述帧图像的对应像素值;

比对相邻所述帧图像的对应像素值,若相邻所述帧图像的对应像素值差值大于预设值,则提取两张相邻所述帧图像的后一帧图像,并定义所述后一帧图像为场景帧;

获取所述云服务器中同时包含所有所述场景帧的视频的网站;

获取所述网站的视频发布日期,选出发布日期最早的网站视频的作者;

对所述新闻内容中的视频下方标注转自所述作者。

具体的,获取新闻内容中的视频,并获取视频中的每一帧图像,再获取每一帧图像的像素值,对所有相邻两帧的像素值进行比对,若相邻两帧的像素值差值大于预设值,则提取这相邻两帧的后一帧为场景帧,场景帧表示这段视频中每次场景转换后的第一帧。

对所有场景帧进行特征提取和编码,具体方法与图片提取相同,在此不再赘述;将视频中所有场景帧分为第一场景帧、第二场景帧、第三场景帧……第n场景帧,并利用第一场景帧、第二场景帧、第三场景帧……第n场景帧与云服务器中的所有视频进行匹配,通过每次匹配进行筛选,筛选出与新闻内容中视频相同的视频,并获取这些视频的网站,对这些网站的视频发布时间进行抓取,选出最早发布视频的网站,并获取网站中发布视频的作者ID,自动将作者ID抓取并标注至本新闻内容中视频的下方,以示该视频转自该作者,避免新闻发布后,出现侵权的现象。

105、提取所述新闻内容的关键词,根据所述关键词与所述云服务器中的新闻内容匹配;

选择匹配度大于预设值的新闻内容的网站,获取所述网站中新闻内容的发布时间;

获取所述编辑端对所述新闻内容修改完成后的时间,将所述时间与所述发布时间比对,若差值大于预设值,则判定所述修改后的新闻内容不具备时效性。

具体的,服务器提取新闻内容中的关键词,关键词具体可为标题或新闻内容中出现次数最多的词语,将关键词与云服务器中的新闻内容匹配。

其中,在匹配过程中,可预选设定一些新闻发布较为活跃的网站,并针对这些网站进行匹配,无需对所有新闻网站匹配。

若发现与本关键词一致的新闻内容,则获取网站中新闻内容的发布时间,选出其中最早的发布时间,并与此时编辑要发布本新闻内容的时间比对,若差值大于预设值,则判定本新闻内容不具备时效性。

当这篇新闻内容不具备时效性时,则这篇新闻内容再发布的意义不大,编辑可将这篇新闻稿存档,若以后出现相类似的新闻事件,可再将这篇新闻稿的内容提出,结合过去的新闻内容发布,丰满新闻内容。

106、提取所述修改后的新闻内容的关键词,根据所述关键词与所述云服务器中搜索次数排名较高的新闻内容进行匹配。

若所述修改后的新闻内容与所述搜索次数排名较高的新闻内容相匹配,则生成高热度标识,并发送至主编端,以使主编将所述修改后的新闻内容发布至显示端较为醒目的位置。

具体的,提取新闻内容中的关键词,本步骤中的关键词与步骤105中的关键词一致,在此不再赘述;根据关键词与服务器中搜索次数排名较高的新闻内容进行匹配,具体可为对微博、百度、谷歌等浏览器的热搜进行匹配,若相互匹配的话,则判定本新闻内容为热点新闻,生成热度标识,并发送至主编端,主编通过主编端看到热度标识,则发布本新闻内容至显示端较为醒目的位置,其中,显示端可为手机端或电脑端,醒目的位置可为显示端界面的顶部,优选的,可对本新闻内容的题目在显示端中进行标红或放大,以吸引阅读者的注意,从而增加点击量。

107、发送修改后的新闻内容至主编端,以提示主编通过所述主编端对所述新闻内容人工检查,所述修改后的新闻内容确认无误后对所述修改后的新闻内容进行发布。

具体的,当编辑将新闻稿修改好后,将新闻稿发送至主编端,以使主编通过主编端进行人工检查,避免出现未监测到的违规词语、图片或视频,进一步降低新闻稿出现违规词语、图片或视频的现象,且新闻内容是否发布,需主编进行决定,进一步避免造成不好的谬论影响,同时进一步提高阅读者的阅读体验。其中,主编端可为手机端或电脑端。

进一步的,主编端接收所述修改后的新闻内容,以使主编通过所述主编端对所述修改后的新闻内容进行人工检查;

若发现出现新的错别字、新的敏感词和新的红标词,主编端对所述新的错别字、所述新的敏感词和所述新的红标词进行标记并将所述新的错别字、所述新的敏感词和所述新的红标词补充至所述监测词列表;

将进行标记后的新闻内容发送至所述编辑端,以使编辑对所述标记后的新闻内容进行修改。

具体的,当新闻内容修改完后,主编发现出现新的错别字、敏感词或红标词,主编对新的错别字、敏感词或红标词补充到监测词列表内,避免编辑出现同样的错误后,服务器依旧未能监测到,从而不断对监测词列表进行更新,不断完善监测词列表,从而降低之后的未监测到词语的量,进一步降低新闻内容出现错别字、敏感词或红标词的几率。

本实施例的实施原理为:

当编辑写完一篇新闻稿时,对这篇新闻稿做内容安全监测,将监测词列表中的监测词调取并对新闻稿的文本进行匹配,若在新闻稿中出现监测词,则针对不同的监测词做不同的警报提示,以提醒编辑对新闻稿做修改;

监测词包含错别字、敏感词和红标词,监测出后提示编辑对新闻内容及时进行修改,避免不慎将带有这类词语的新闻稿发布,造成不好的谬论影响;服务器同时对新闻内容中的图片和视频做相关处理,避免新闻稿中的图片和视频出现违规现象,若出现人物面部,则需对面部进行打码处理,若出现暴力图片或视频,则提醒编辑需删除暴力图片或视频;

在云服务器里搜索本新闻内容中要发布的图片和视频,找到发布时间最早的网站,并自动标识本新闻内容中的图片和视频是转自该网站的,避免侵权;

对本新闻内容进行时效性的判断,若已有相似的内容发布,且发布时间较早,则本新闻内容发布意义不大,则可以对本新闻稿进行存档,以备后续使用;

对本新闻内容是否贴合热点进行搜索,并根据本新闻是否贴合热点做出相应处理,若贴合热点,发布至醒目位置,以提高点击量;当编辑利用编辑端将新闻稿修改好后,将新闻稿发送至主编端,以使主编根据主编端对新闻内容人工检查,避免出现未监测到的违规词语、图片或视频,进一步降低新闻稿出现违规词语、图片或视频的现象,进一步避免造成不好的谬论影响,同时进一步提高阅读者的阅读体验。

实施例二:

一种新闻内容安全监测系统,参考图2,包括:

创建装置201,建立监测词列表,所述监测词列表内包含错别字、敏感词和红标词。

匹配装置202,依次调取所述监测词列表内的错别字、敏感词和红标词,与新闻内容匹配。

警报装置203,若所述新闻内容存在所述监测词列表内的错别字、敏感词和红标词,则根据出现的监测词做出不同级别的警报提示,以提示编辑对所述新闻内容修改。

处理装置204,获取并识别所述新闻内容中的图片和视频,根据所述图片和所述视频做相关处理。

具体的,对各图片类别准备对应的预设数量的样本图片,并标定每一样本对应的图片类别;

利用所述训练样本图片对预设类型的识别模型进行训练;

获取所述新闻内容中的图片;

将所述图片输入至所述识别模型中进行识别,并输出识别结果;

根据所述识别结果对所述图片做相关处理;

若所述识别结果为所述图片出现人物露脸,则对所述图片出现人物的面部进行打码;

若所述识别结果为所述图片出现暴力,则删除所述图片。

进一步的,获取所述图片;

将所述图片与云服务器中的图片比对;

获取所述云服务器中与所述图片相同的所有网站;

获取所述所有网站的图片发布日期,选出发布日期最早的网站图片的作者;

对所述新闻内容中的图片下方标注转自所述作者。

进一步的,获取所述视频的所有帧图像,并识别所述帧图像的对应像素值;

比对相邻所述帧图像的对应像素值,若相邻所述帧图像的对应像素值差值大于预设值,则提取两张相邻所述帧图像的后一帧图像,并定义所述后一帧图像为提取帧;

获取所述云服务器中同时包含所有所述提取帧的视频的网站;

获取所述网站的视频发布日期,选出发布日期最早的网站视频的作者;

对所述新闻内容中的视频下方标注转自所述作者。

第一判断装置205,提取所述新闻内容的关键词,根据所述关键词与所述云服务器中的新闻内容匹配;选择匹配度大于预设值的新闻内容的网站,获取所述网站中新闻内容的发布时间;获取所述编辑端对所述新闻内容修改完成后的时间,将所述时间与所述发布时间比对,若差值大于预设值,则判定所述修改后的新闻内容不具备时效性。

第二判断装置206,提取所述修改后的新闻内容的关键词,根据所述关键词与所述云服务器中搜索次数排名较高的新闻内容进行匹配;若所述修改后的新闻内容与所述搜索次数排名较高的新闻内容相匹配,则生成高热度标识,并发送至主编端,以使主编将所述修改后的新闻内容发布至显示端较为醒目的位置。

确认装置207,发送修改后的新闻内容至主编端,以提示主编对所述新闻内容人工检查,所述修改后的新闻内容确认无误后对所述修改后的新闻内容进行发布。

具体的,主编端接收所述修改后的新闻内容,以使主编通过所述主编端对所述修改后的新闻内容进行人工检查;

若发现出现新的错别字、新的敏感词和新的红标词,主编端对所述新的错别字、所述新的敏感词和所述新的红标词进行标记并将所述新的错别字、所述新的敏感词和所述新的红标词补充至所述监测词列表;

将进行标记后的新闻内容发送至所述编辑端,以使编辑对所述标记后的新闻内容进行修改。

实施例三:

一种新闻内容安全监测装置,参考图3,包括:

创建模块301,建立监测词列表,所述监测词列表内包含错别字、敏感词和红标词。

匹配模块302,依次调取所述监测词列表内的错别字、敏感词和红标词,与新闻内容匹配。

警报模块303,若所述新闻内容存在所述监测词列表内的错别字、敏感词和红标词,则根据出现的监测词做出不同级别的警报提示,以提示编辑对所述新闻内容修改。

处理模块304,获取并识别所述新闻内容中的图片和视频,根据所述图片和所述视频做相关处理。

具体的,对各图片类别准备对应的预设数量的样本图片,并标定每一样本对应的图片类别;

利用所述训练样本图片对预设类型的识别模型进行训练;

获取所述新闻内容中的图片;

将所述图片输入至所述识别模型中进行识别,并输出识别结果;

根据所述识别结果对所述图片做相关处理;

若所述识别结果为所述图片出现人物露脸,则对所述图片出现人物的面部进行打码;

若所述识别结果为所述图片出现暴力,则删除所述图片。

进一步的,获取所述图片;

将所述图片与云服务器中的图片比对;

获取所述云服务器中与所述图片相同的所有网站;

获取所述所有网站的图片发布日期,选出发布日期最早的网站图片的作者;

对所述新闻内容中的图片下方标注转自所述作者。

进一步的,获取所述视频的所有帧图像,并识别所述帧图像的对应像素值;

比对相邻所述帧图像的对应像素值,若相邻所述帧图像的对应像素值差值大于预设值,则提取两张相邻所述帧图像的后一帧图像,并定义所述后一帧图像为提取帧;

获取所述云服务器中同时包含所有所述提取帧的视频的网站;

获取所述网站的视频发布日期,选出发布日期最早的网站视频的作者;

对所述新闻内容中的视频下方标注转自所述作者。

第一判断模块305,提取所述新闻内容的关键词,根据所述关键词与所述云服务器中的新闻内容匹配;选择匹配度大于预设值的新闻内容的网站,获取所述网站中新闻内容的发布时间;获取所述编辑端对所述新闻内容修改完成后的时间,将所述时间与所述发布时间比对,若差值大于预设值,则判定所述修改后的新闻内容不具备时效性。

第二判断模块306,提取所述修改后的新闻内容的关键词,根据所述关键词与所述云服务器中搜索次数排名较高的新闻内容进行匹配;若所述修改后的新闻内容与所述搜索次数排名较高的新闻内容相匹配,则生成高热度标识,并发送至主编端,以使主编将所述修改后的新闻内容发布至显示端较为醒目的位置。

确认模块307,发送修改后的新闻内容至主编端,以提示主编对所述新闻内容人工检查,所述修改后的新闻内容确认无误后对所述修改后的新闻内容进行发布。

具体的,主编端接收所述修改后的新闻内容,以使主编通过所述主编端对所述修改后的新闻内容进行人工检查;

若发现出现新的错别字、新的敏感词和新的红标词,主编端对所述新的错别字、所述新的敏感词和所述新的红标词进行标记并将所述新的错别字、所述新的敏感词和所述新的红标词补充至所述监测词列表;

将进行标记后的新闻内容发送至所述编辑端,以使编辑对所述标记后的新闻内容进行修改。

需要说明的是:上述实施例提供的新闻内容安全监测的装置和系统在执行新闻内容安全监测的方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备和设备的内部构造划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的一种新闻内容安全监测的方法、装置和系统实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。

非易失性存储器可以是ROM、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electricallyEPROM,EEPROM)或闪存。

易失性存储器可以是RAM,其用作外部高速缓存。RAM有多种不同的类型,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器。

上述任一处提到的处理器,可以是一个CPU,微处理器,ASIC,或一个或多个用于控制上述新闻内容安全监测方法的程序执行的集成电路。该处理模块和该存储模块可以解耦,分别设置在不同的物理设备上,通过有线或者无线的方式连接来实现该处理模块和该存储模块的各自的功能,以支持该系统芯片实现上述实施例中的各种功能。或者,该处理模块和该存储器也可以耦合在同一个设备上。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语料生成方法、装置及计算机设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!