新闻文本分类系统

文档序号:168645 发布日期:2021-10-29 浏览:20次 >En<

阅读说明:本技术 新闻文本分类系统 (News text classification system ) 是由 高琦 范德儒 刘畅 于 2021-08-10 设计创作,主要内容包括:本发明公开了新闻文本分类系统,包括前端主机、数据处理芯片、分类处理芯片、算法控制箱、单文本处理控制箱、多文本处理控制箱,所述数据处理芯片与前端主机、算法控制箱之间设置有数据接口与一号连接线缆,所述分类处理芯片与前端主机、算法控制箱之间设置有四号连接线缆,所述前端主机与单文本处理控制箱之间设置有二号连接线缆,所述前端主机与多文本处理控制箱之间设置有三号连接线缆。本发明所述的新闻文本分类系统,单条新闻预测不超过0.2s,且根据设备情况运用GPU加速,训练数据超过1000000条,每一类数据十分均匀,结果更可靠,前端界面简单明了,批量预测使用多线程,准确率高,比人类平均正确率高。(The invention discloses a news text classification system which comprises a front-end host, a data processing chip, a classification processing chip, an algorithm control box, a single text processing control box and a multi-text processing control box, wherein a data interface and a first connecting cable are arranged between the data processing chip and the front-end host as well as between the data processing chip and the algorithm control box, a fourth connecting cable is arranged between the classification processing chip and the front-end host as well as between the classification processing chip and the algorithm control box, a second connecting cable is arranged between the front-end host and the single text processing control box, and a third connecting cable is arranged between the front-end host and the multi-text processing control box. According to the news text classification system, single news prediction does not exceed 0.2s, the GPU is used for acceleration according to equipment conditions, training data exceed 1000000, each type of data is very uniform, the result is more reliable, the front-end interface is simple and clear, multiple threads are used for batch prediction, the accuracy is high, and the average accuracy is higher than that of a human.)

新闻文本分类系统

技术领域

本发明涉及新闻文本分类领域,特别涉及新闻文本分类系统。

背景技术

新闻文本分类系统是一种进行新闻文本数据分类的支撑设备,新闻,是人们获取信息,了解时事热点的重要途径,随着新闻行业数字化的发展,网络平台上的新闻报道、新闻评论、网友发声等文本数据快速增加,将这些文本数据正确归类,可以更好地组织、利用这些信息,自动新闻文本分类将人们从繁琐的手工分类中解放出来,使分类任务变的更为高效,准确,帮助用户提高检索效率,有助于提升用户阅读体验,同时为进一步的数据挖掘和分析奠定基础,随着科技的不断发展,人们对于新闻文本分类系统的制造工艺要求也越来越高。

现有的新闻文本分类系统在使用时存在一定的弊端,首先,不能很好的对新闻数据资源进行预处理操作,对其进行文本分类较为麻烦,不利于人们的使用,还有,一次性处理文本较少,效率低,准确率低,而在传统分类模式下,往往是通过人工对新闻内容进行核对,从而将新闻划分到合适的类别中,这种方式会消耗大量的人力资源,并且效率不高,面对规模巨大且不断增长的文本信息,依靠人工将海量的文本信息分类是不现实的,给人们的使用过程带来了一定的不利影响,为此,我们提出新闻文本分类系统。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了新闻文本分类系统,单条新闻预测不超过0.2s,且根据设备情况运用GPU加速,训练数据超过1000000条,每一类数据十分均匀,结果更可靠,前端界面简单明了,批量预测使用多线程,准确率高,测试数据准确率高于94%,比人类平均正确率高,可以有效解决背景技术中的问题。

(二)技术方案

为实现上述目的,本发明采取的技术方案为:新闻文本分类系统,包括前端主机、数据处理芯片、分类处理芯片、算法控制箱、单文本处理控制箱、多文本处理控制箱,所述数据处理芯片与前端主机、算法控制箱之间设置有数据接口与一号连接线缆,所述分类处理芯片与前端主机、算法控制箱之间设置有四号连接线缆,所述前端主机与单文本处理控制箱之间设置有二号连接线缆,所述前端主机与多文本处理控制箱之间设置有三号连接线缆。

优选的,所述前端主机的前端安装有控制模块与显示面板,所述算法控制箱的前端安装有显示界面与控制器。

优选的,所述前端主机的内部设置有新闻文本分类模块,所述新闻文本分类模块连接有模型选择模块,所述模型选择模块连接有批量预测模块与单句预测模块,所述批量预测模块与单句预测模块均连接有预测输出模块。

优选的,所述新闻文本分类模块的输出端与模型选择模块的输入端连接,所述模型选择模块的输出端与批量预测模块、单句预测模块的输入端连接,所述批量预测模块与单句预测模块的输出端与预测输出模块的输入端连接。

优选的,所述前端主机、数据处理芯片、分类处理芯片、算法控制箱、单文本处理控制箱、多文本处理控制箱之间设置有QT前端模块、新闻数据处理模块、分类结果处理模块、算法模块、单条新闻文本模块、多条新闻文件模块。

优选的,所述QT前端模块的输出端通过新闻数据处理模块与算法模块的输入端连接,所述QT前端模块的输入端通过分类结果处理模块与算法模块的输出端连接。

(三)有益效果

与现有技术相比,本发明提供了新闻文本分类系统,具备以下有益效果:该新闻文本分类系统,单条新闻预测不超过0.2s,且根据设备情况运用GPU加速,训练数据超过1000000条,每一类数据十分均匀,结果更可靠,前端界面简单明了,批量预测使用多线程,准确率高,测试数据准确率高于94%,比人类平均正确率高,通过前端主机与算法控制箱之间进行文本处理,在数据处理芯片与分类处理芯片的位置进行数据处理与分类结果处理,前端主机连接单文本处理控制箱与多文本处理控制箱,可以进行单条或多条的文本预测,自动新闻文本分类将人类从繁琐的手工分类中解放出来,使分类任务变的更为高效,帮助用户提高检索效率,提升用户阅读体验,协助网站运营人员了解用户需求,让信息更有效的被利用,同时可以在分类的基础上分析与挖掘有用的信息,为进一步的数据挖掘和分析奠定基础,可以根据输入的新闻的标题和正文内容,输出新闻的分类,包括财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐和其他共十类,既能够输入单条新闻,也支持本地上传csv/xlsx文件,批量输入新闻,并输出新闻分类,单句预测实现了对单条文本输入分类,批量预测实现了对新闻数据文件上传分类,用户上传标题和正文内容或指定csv/xlsx文件文件夹路径,精准返回新闻的文本分类,向用户提供批量识别结果表单,具有准确性、高速性、简洁性、操作简便性、可扩展性等优点,技术架构由界面设计、核心算法两个个部分组成。前端技术完成系统的可视化展示并提供用户使用的接口,由PyQt5框架搭建。核心算法负责对上传xlxs文件进行分类分析以及对直接输入文字进行分类分析,前端使用了PyQT5框架,模型是利用Bert预训练模型训练,整个新闻文本分类系统结构简单,操作方便,使用的效果相对于传统方式更好。

附图说明

图1为本发明新闻文本分类系统的整体结构示意图。

图2为本发明新闻文本分类系统中前端主机的结构示意图。

图3为本发明新闻文本分类系统中新闻文本分类模块的结构示意图。

图4为本发明新闻文本分类系统中分类处理模块的结构示意图。

图中:1、前端主机;2、控制模块;3、显示面板;4、数据接口;5、一号连接线缆;6、数据处理芯片;7、算法控制箱;8、显示界面;9、二号连接线缆;10、单文本处理控制箱;11、多文本处理控制箱;12、三号连接线缆;13、分类处理芯片;14、四号连接线缆;15、控制器。

具体实施方式

下面将结合附图和具体实施方式对本发明的技术方案进行清楚、完整地描述,但是本领域技术人员将会理解,下列所描述的实施例是本发明一部分实施例,而不是全部的实施例,仅用于说明本发明,而不应视为限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

实施例一:

如图1-4所示,新闻文本分类系统,包括前端主机1、数据处理芯片6、分类处理芯片13、算法控制箱7、单文本处理控制箱10、多文本处理控制箱11,数据处理芯片6与前端主机1、算法控制箱7之间设置有数据接口4与一号连接线缆5,分类处理芯片13与前端主机1、算法控制箱7之间设置有四号连接线缆14,前端主机1与单文本处理控制箱10之间设置有二号连接线缆9,前端主机1与多文本处理控制箱11之间设置有三号连接线缆12。

进一步的,前端主机1的前端安装有控制模块2与显示面板3,算法控制箱7的前端安装有显示界面8与控制器15。

进一步的,前端主机1、数据处理芯片6、分类处理芯片13、算法控制箱7、单文本处理控制箱10、多文本处理控制箱11之间设置有QT前端模块、新闻数据处理模块、分类结果处理模块、算法模块、单条新闻文本模块、多条新闻文件模块。

进一步的,QT前端模块的输出端通过新闻数据处理模块与算法模块的输入端连接,QT前端模块的输入端通过分类结果处理模块与算法模块的输出端连接。

实施例二:

在实施例一的基础上,如图1-4所示,新闻文本分类系统,包括前端主机1、数据处理芯片6、分类处理芯片13、算法控制箱7、单文本处理控制箱10、多文本处理控制箱11,数据处理芯片6与前端主机1、算法控制箱7之间设置有数据接口4与一号连接线缆5,分类处理芯片13与前端主机1、算法控制箱7之间设置有四号连接线缆14,前端主机1与单文本处理控制箱10之间设置有二号连接线缆9,前端主机1与多文本处理控制箱11之间设置有三号连接线缆12。

进一步的,前端主机1的内部设置有新闻文本分类模块,新闻文本分类模块连接有模型选择模块,模型选择模块连接有批量预测模块与单句预测模块,批量预测模块与单句预测模块均连接有预测输出模块。

进一步的,新闻文本分类模块的输出端与模型选择模块的输入端连接,模型选择模块的输出端与批量预测模块、单句预测模块的输入端连接,批量预测模块与单句预测模块的输出端与预测输出模块的输入端连接。

工作原理:本发明包括前端主机1、控制模块2、显示面板3、数据接口4、一号连接线缆5、数据处理芯片6、算法控制箱7、显示界面8、二号连接线缆9、单文本处理控制箱10、多文本处理控制箱11、三号连接线缆12、分类处理芯片13、四号连接线缆14、控制器15,在进行使用的时候,通过前端主机1与算法控制箱7之间进行文本处理,在数据处理芯片6与分类处理芯片13的位置进行数据处理与分类结果处理,前端主机1连接单文本处理控制箱10与多文本处理控制箱11,可以进行单条或多条的文本预测,自动新闻文本分类将人类从繁琐的手工分类中解放出来,使分类任务变的更为高效,帮助用户提高检索效率,提升用户阅读体验,协助网站运营人员了解用户需求,让信息更有效的被利用,同时可以在分类的基础上分析与挖掘有用的信息,为进一步的数据挖掘和分析奠定基础,可以根据输入的新闻的标题和正文内容,输出新闻的分类,包括财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐和其他共十类,既能够输入单条新闻,也支持本地上传csv/xlsx文件,批量输入新闻,并输出新闻分类,单句预测实现了对单条文本输入分类,批量预测实现了对新闻数据文件上传分类,用户上传标题和正文内容或指定csv/xlsx文件文件夹路径,精准返回新闻的文本分类,向用户提供批量识别结果表单,具有准确性、高速性、简洁性、操作简便性、可扩展性等优点,技术架构由界面设计、核心算法两个个部分组成。前端技术完成系统的可视化展示并提供用户使用的接口,由PyQt5框架搭建。核心算法负责对上传xlxs文件进行分类分析以及对直接输入文字进行分类分析,前端使用了PyQT5框架,模型是利用Bert预训练模型训练。

需要说明的是,在本文中,诸如第一和第二(一号、二号)等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:手持式工业电子装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!