一种基于AhoCorasick模式匹配机的语文课文音频节目发现方法

文档序号:1310321 发布日期:2020-07-10 浏览:6次 >En<

阅读说明:本技术 一种基于AhoCorasick模式匹配机的语文课文音频节目发现方法 (Chinese text audio program discovery method based on Aho Corasick mode matching machine ) 是由 吴海旭 于 2019-10-28 设计创作,主要内容包括:本发明涉及一种基于AhoCorasick模式匹配机的语文课文音频节目发现方法,步骤一:构建一个语文课文音频节目关键词词库;步骤二:应用AhoCorasick模式匹配机,自动抽取语文课文音频节目的标题和简介中的关键词;步骤三:如果抽取到语文课文关键词,则判定此节目为语文课文类节目。本发明可以高效、科学地发现语文课文音频节目,增加效率的同时,也可大大减少企业用人成本。(The invention relates to a Chinese text audio program discovery method based on an Aho Corasick mode matching machine, which comprises the following steps: constructing a keyword lexicon of a Chinese text audio program; step two: automatically extracting keywords in the titles and brief introduction of the Chinese text audio programs by applying an Aho Corasick mode matching machine; step three: if the Chinese text keywords are extracted, the program is judged to be a Chinese text program. The invention can efficiently and scientifically discover the audio programs of the Chinese texts, thereby increasing the efficiency and greatly reducing the labor cost of enterprises.)

一种基于AhoCorasick模式匹配机的语文课文音频节目发现 方法

技术领域

本发明属于人工智能领域,具体涉及一种基于AhoCorasick模式匹配机的语文课文音频节目发现方法。

背景技术

随着移动互联网的快速发展,音频类产品如雨后春笋般涌现出来,这大大丰富了群众的文化生活。音频类节目数量巨大,用户想要快速找到自己喜欢的音频节目,首先要有一个高效的发现节目的方法。比如小红是一名三年级的小学生,他喜欢听语文课文的录音节目,那么她需要从海量节目中快速筛选出语文课文节目。然而,人工观察节目的标题和简介来筛选的方式过于复杂,消耗人力,且对用户的文化水平有较高要求。此外,音频类节目量数以亿计,人工无法满足快速筛选语文课文的需求。因此,自动快速地发现语文课文类音频节目很有必要。

现阶段,语文课文音频节目发现主要有两种方式。第一种是运营人员手动筛选语文课文节目,这种方式虽然准确率高,但效率过低。第二种是先人工标记大量语文课文类音频节目,然后根据节目的标题和声音内容等特征,采用监督学习,构建机器学习模型,在前期标记数据的基础上进行自动二分类。第二种机器学习的方法虽然在一定程度上提高效率,然而也存在一些问题。一方面这种方法建立在大批量标记数据的基础上,需要依靠人工标记,消耗人力;另一方面机器学习模型比较复杂,不论是训练模型还是持久化模型都不够轻便。

针对上述存在的技术问题,本申请人提供一种基于AhoCorasick 模式匹配机的语文课文音频节目发现方法,本案由此产生。

发明内容

本发明的目的在于提供一种基于AhoCorasick模式匹配机的语文课文音频节目发现方法,以快速高效的发现语文课文音频节目。

为实现上述目的,本发明具体提供的技术方案为:一种基于 AhoCorasick模式匹配机的语文课文音频节目发现方法,包括如下步骤:

步骤一:构建一个语文课文音频节目关键词词库;

步骤二:应用AhoCorasick模式匹配机,自动抽取语文课文音频节目的标题和简介中的关键词;

步骤三:如果抽取到语文课文关键词,则判定此节目为语文课文类节目。

进一步,关键词库的构建方式:从垂直类网站上自动爬取或从节目标题和简介中人工总结。

进一步,构建AhoCorasick模式匹配机分两步,第一步构建goto 函数,同时开始构建output函数;第二步构建failure函数,同时完成output函数。

进一步,构建Goto函数,输入为关键词集合K={y1,y2,…,yk},输出为goto函数和部分output函数。

进一步,构建failure函数,输入为goto函数,outpu函数,输出为failure函数f和输出函数output。

AhoCorasick模式匹配机是一种自动机,对于一个字符串,遍历一次就可以匹配出所有在词库中的词。

AhoCorasick模式匹配机的具体原理如下:

记K是一个集合的关键词,x是某字符串。问题是定位和识别所有x 的在K中的子串。AhoCorasick模式匹配机是一个程序,输入是x,输出是x匹配到K中的关键词,及关键词出现的位置。

AhoCorasick模式匹配机包括若干个状态,每个状态由一个数字表示,匹配机通过逐个读取x中的字符,状态转移,然后发射输出来处理x。匹配机的行为通过三个函数刻画:goto函数g,failure函数f,输出函数output。

本发明的有益效果:现阶段,语文课文音频节目的发现,依赖大量人工标记。一方面,人工标记效率低,另一方面,大量人工会增加企业成本。利用AhoCorasick模式匹配机,可以高效、科学地发现语文课文音频节目,增加效率的同时,也可大大减少企业用人成本。

附图说明

图1为AhoCorasick模式匹配机发现语文课文音频节目的流程图;图2为AhoCorasick模式匹配机的运行方式。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

如图1所示,本实施例揭示的是一种基于AhoCorasick模式匹配机的语文课文音频节目发现方法,包括如下步骤:

步骤一:构建一个语文课文音频节目关键词词库;

步骤二:应用AhoCorasick模式匹配机,自动抽取语文课文音频节目的标题和简介中的关键词;

步骤三:如果抽取到语文课文关键词,则判定此节目为语文课文类节目。

关键词词库的构建:

应用AhoCorasick模式匹配机,首先需要构建一个关键词词库。

关键词库的构建有两种方式:

一、从垂直类网站上自动爬取。比如,可以从豆瓣获取大量电影名,经过数据预处理等方式,可制成一个电影词库。

二、从节目标题和简介中人工总结。人为观察音频节目的标题和简介,总结出相应关键词。

构建完关键词词库后,接下来是构建AhoCorasick模式匹配机。构建AhoCorasick模式匹配机分两步,第一步构建goto函数,同时开始构建output函数;第二步构建failure函数,同时完成output 函数。

具体算法如下:

(1)构建Goto函数,输入为关键词集合K={y1,y2,…,yk},输出为goto函数,和部分output函数。

(2)构建failure函数,输入为goto函数,outpu函数,输出为failure函数f,和输出函数output。

构建完成的AhoCorasick模式匹配机可实现关键词的匹配。 AhoCorasick模式匹配机输入为一个字符串x=a1a2…am,输出为匹配到的关键词,和关键词在x中的位置。

AhoCorasick模式匹配机是一种自动机,对于一个字符串,遍历一次就可以匹配出所有在词库中的词。AhoCorasick模式匹配机的具体原理如下:

记K是一个集合的关键词,x是某字符串。问题是定位和识别所有x的在K中的子串。AhoCorasick模式匹配机是一个程序,输入是 x,输出是x匹配到K中的关键词,及关键词出现的位置。

AhoCorasick模式匹配机包括若干个状态,每个状态由一个数字表示,匹配机通过逐个读取x中的字符,状态转移,然后发射输出来处理x。匹配机的行为通过三个函数刻画:goto函数g,failure函数f,输出函数output。

例如,对于关键词{he,she,his,hers},三个函数如图1所示。其中0是初始状态。goto函数输入一个状态和一个字符,输出另一个状态或fail信号。fail函数将一个状态映射到另一个状态。goto 函数发出fail信号的时候就会启用fail函数。output函数将状态映射到一个集合的关键词(可能是空集)。

AhoCorasick模式匹配机的运行方式如下定义:s是当前状态,a 是当前字符。

一、如果g(s,a)=s’,则转移至s',下一个字符变成当前字符。同时,如果output(s’)不是空集,那么匹配机发射集合,附带当前字符的位置。匹配完成。

二、如果g(s,a)=fail,那么调用fail函数,进行fail转移。如果f(s)=s’,把s'当成当前状态,a继续留作当前字符,回到1。 AhoCorasick模式匹配机匹配一个字符串,从中提取关键词的时间复杂度是字符串的长度,其效率非常高。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:音频指纹的生成方法、装置、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!