CN113761170A - 更新语料库的方法和装置 - Google Patents
更新语料库的方法和装置 Download PDFInfo
- Publication number
- CN113761170A CN113761170A CN202010969717.2A CN202010969717A CN113761170A CN 113761170 A CN113761170 A CN 113761170A CN 202010969717 A CN202010969717 A CN 202010969717A CN 113761170 A CN113761170 A CN 113761170A
- Authority
- CN
- China
- Prior art keywords
- corpus
- online
- corpora
- log
- plaintext
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000875 corresponding Effects 0.000 claims abstract description 173
- 238000001914 filtration Methods 0.000 claims abstract description 85
- 230000001502 supplementation Effects 0.000 claims abstract description 8
- 238000003379 elimination reaction Methods 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 17
- 238000010276 construction Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 8
- 230000003287 optical Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006011 modification reaction Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000950629 Icteria Species 0.000 description 1
- 210000003666 Nerve Fibers, Myelinated Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000003365 glass fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002522 swelling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Abstract
本发明公开了更新语料库的方法和装置,涉及计算机计算技术领域。该方法的一具体实施方式包括:对历史日志进行过滤压缩处理,生成历史日志对应的新增语料;利用线上语料库对应的埋点数据和线上语料库对应的词语得分表,确定线上语料库中的淘汰语料;将新增语料补充至线上语料库中,将淘汰语料从线上语料库中删除,以更新线上语料库。该实施方式能够保障线上语料库中的语料数量维持在一定范围内,降低运营成本,减少工作量,还可以保证线上语料库中的语料具有通用性,且可以不断跟随线上客服系统咨询的热点。
Description
技术领域 本发明涉及计算机技术领域,尤其涉及一种更新语料库的方法和装置。 背景技术 输入联想是用户端辅助工具,其工作模式为:构建语料库,当用户在前端界面输入信息时,可以截获用户输入,预测用户需求,从语料库中选择最符合用户需求的语料进行推荐。因此,语料库的构建是输入联想准确度的关键。 现有技术中,语料库的构建包括如下两种方式:一、生成式,即事先确定好用户可能会咨询的问题句,然后将问题句中的实体和形容词剥离出来,接着筛选出符合物品特征的实体和形容词,填入问题句中;二、构建式,即以一定标准筛选出用户常见咨询语句,然后构建出语料库。 在实现本发明过程中,发明人发现现有技术中至少存在如下问题:一、对于生成式,需要从无到有的挑选问题句,会导致很大工作量,且运营成本极高;二、对于构建式,由于不同品类物品对应的咨询问题不一样,导致得到的语料库不具备通用性;三、对于生成式和构建式,均没有明确的淘汰机制,造成语料暴涨,还会存在无法符合用户需求的过期语料。 发明内容 有鉴于此,本发明实施例提供一种更新语料库的方法和装置,能够保障线上语料库中的语料数量维持在一定范围内,降低运营成本,减少工作量,还可以保证线上语料库中的语料具有通用性,且可以不断跟随线上客服系统咨询的热点。 为实现上述目的,根据本发明实施例的第一方面,提供了一种更新语料库的方法。 本发明实施例的一种更新语料库的方法,包括:对历史日志进行过滤压缩处理,生成所述历史日志对应的新增语料;利用线上语料库对应的埋点数据和所述线上语料库对应的词语得分表,确定所述线上语料库中的淘汰语料;将所述新增语料补充至所述线上语料库中,将所述淘汰语料从所述线上语料库中删除,以更新所述线上语料库。 可选地,所述对历史日志进行过滤压缩处理,生成所述历史日志对应的新增语料,包括:获取第一预设时间内的历史日志,对所述历史日志进行解密处理,获得明文日志;利用预设日志过滤规则,对所述明文日志进行过滤处理;对过滤处理后的所述明文日志进行压缩处理,获得所述明文日志对应的备选语料;基于预设筛选模型,对所述备选语料进行模型识别处理,生成所述新增语料。 可选地,所述利用预设日志过滤规则,对所述明文日志进行过滤处理,包括:对所述明文日志进行基础过滤,将所述明文日志中的系统默认消息、用户相关信息、网址、图片和特殊字符过滤掉,对所述明文日志中的表情符号进行替换;对所述明文日志进行会话内去重处理,将每条明文日志中的重复会话过滤掉;对所述明文日志进行长度过滤,将所述明文日志中不符合预设字符长度的日志过滤掉;对所述明文日志进行次数过滤,将所述明文日志中在第二预设时间内出现的次数小于预设次数的日志过滤掉。 可选地,所述对过滤处理后的所述明文日志进行压缩处理,获得所述明文日志对应的备选语料,包括:按照所述过滤处理后的所述明文日志在第二预设时间内出现的次数,对所述过滤处理后的所述明文日志进行压缩处理,得到所述备选语料。 可选地,所述基于预设筛选模型,对所述备选语料进行模型识别处理,生成所述新增语料,包括:将所述备选语料输入负向情绪识别模型中,识别出负向情绪语料,将所述备选语料输入敏感合规模型中,识别出不合规语料;将所述负向情绪语料和所述不合规语料从所述备选语料中删除,生成所述新增语料。 可选地,在利用线上语料库对应的埋点数据和所述线上语料库对应的词语得分表,确定所述线上语料库中的淘汰语料之前,所述方法还包括:获取所述线上语料库中的至少一个线上语料,对所述至少一个线上语料进行分词,获得至少一个线上语料分词;针对所述至少一个线上语料分词中的线上语料分词,统计所述线上语料分词在所述线上语料库中出现的次数,并根据统计的次数确定所述线上语料分词的词语分数,以生成所述线上语料库对应的词语得分表。 可选地,所述埋点数据包括:曝光数据和点击数据;以及所述利用所述线上语料库对应的埋点数据和词语得分表,确定所述线上语料库中的淘汰语料,包括:针对所述至少一个线上语料中的线上语料,从所述曝光数据中获得所述线上语料对应的曝光次数,从所述点击数据中获得所述线上语料对应的点击次数;根据所述线上语料对应的曝光次数、所述线上语料对应的点击次数和所述词语得分表,判断所述线上预料是否符合预设的淘汰条件,若是,则确定所述线上预料为淘汰预料,以得到所述线上语料库中的淘汰语料。 可选地,所述根据所述线上语料对应的曝光次数、所述线上语料对应的点击次数和所述词语得分表,判断所述线上预料是否符合预设的淘汰条件,若是,则确定所述线上预料为淘汰预料,包括:若所述线上语料对应的曝光次数为零,则确定所述线上语料为淘汰语料;若所述线上语料对应的曝光次数大于第一预设曝光次数,且所述线上语料对应的点击次数小于预设点击次数,则确定所述线上语料为淘汰语料;若所述线上语料对应的曝光次数小于第二预设曝光次数且大于零,则利用所述词语得分表计算所述线上语料对应的语料分数,在所述语料分数小于预设分数的情况下,确定所述线上语料为淘汰语料。 可选地,在生成所述历史日志对应的新增语料之后,所述方法还包括:获取所述新增语料对应的特征,建立获取的特征与所述新增语料的对应关系,所述特征包括品类类型、品牌类型、和/或咨询入口类型;以及,对所述新增语料进行埋点,监控所述新增语料对应的曝光次数和点击次数。 为实现上述目的,根据本发明实施例的第二方面,提供了一种更新语料库的装置。 本发明实施例的一种更新语料库的装置,包括:生成模块,用于对历史日志进行过滤压缩处理,生成所述历史日志对应的新增语料;确定模块,用于利用线上语料库对应的埋点数据和所述线上语料库对应的词语得分表,确定所述线上语料库中的淘汰语料;更新模块,用于将所述新增语料补充至所述线上语料库中,将所述淘汰语料从所述线上语料库中删除,以更新所述线上语料库。 可选地,所述生成模块还用于:获取第一预设时间内的历史日志,对所述历史日志进行解密处理,获得明文日志;利用预设日志过滤规则,对所述明文日志进行过滤处理;对过滤处理后的所述明文日志进行压缩处理,获得所述明文日志对应的备选语料;基于预设筛选模型,对所述备选语料进行模型识别处理,生成所述新增语料。 可选地,所述生成模块还用于:对所述明文日志进行基础过滤,将所述明文日志中的系统默认消息、用户相关信息、网址、图片和特殊字符过滤掉,对所述明文日志中的表情符号进行替换;对所述明文日志进行会话内去重处理,将每条明文日志中的重复会话过滤掉;对所述明文日志进行长度过滤,将所述明文日志中不符合预设字符长度的日志过滤掉;对所述明文日志进行次数过滤,将所述明文日志中在第二预设时间内出现的次数小于预设次数的日志过滤掉。 可选地,所述生成模块还用于:按照所述过滤处理后的所述明文日志在第二预设时间内出现的次数,对所述过滤处理后的所述明文日志进行压缩处理,得到所述备选语料。 可选地,所述生成模块还用于:将所述备选语料输入负向情绪识别模型中,识别出负向情绪语料,将所述备选语料输入敏感合规模型中,识别出不合规语料;将所述负向情绪语料和所述不合规语料从所述备选语料中删除,生成所述新增语料。 可选地,所述确定模块还用于:获取所述线上语料库中的至少一个线上语料,对所述至少一个线上语料进行分词,获得至少一个线上语料分词;针对所述至少一个线上语料分词中的线上语料分词,统计所述线上语料分词在所述线上语料库中出现的次数,并根据统计的次数确定所述线上语料分词的词语分数,以生成所述线上语料库对应的词语得分表。 可选地,所述埋点数据包括:曝光数据和点击数据;以及,所述确定模块还用于:针对所述至少一个线上语料中的线上语料,从所述曝光数据中获得所述线上语料对应的曝光次数,从所述点击数据中获得所述线上语料对应的点击次数;根据所述线上语料对应的曝光次数、所述线上语料对应的点击次数和所述词语得分表,判断所述线上预料是否符合预设的淘汰条件,若是,则确定所述线上预料为淘汰预料,以得到所述线上语料库中的淘汰语料。 可选地,所述确定模块还用于:若所述线上语料对应的曝光次数为零,则确定所述线上语料为淘汰语料;若所述线上语料对应的曝光次数大于第一预设曝光次数,且所述线上语料对应的点击次数小于预设点击次数,则确定所述线上语料为淘汰语料;若所述线上语料对应的曝光次数小于第二预设曝光次数且大于零,则利用所述词语得分表计算所述线上语料对应的语料分数,在所述语料分数小于预设分数的情况下,确定所述线上语料为淘汰语料。 可选地,所述生成模块还用于:获取所述新增语料对应的特征,建立获取的特征与所述新增语料的对应关系,所述特征包括品类类型、品牌类型、和/或咨询入口类型;以及,对所述新增语料进行埋点,监控所述新增语料对应的曝光次数和点击次数。 为实现上述目的,根据本发明实施例的第三方面,提供了一种电子设备。 本发明实施例的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明实施例的更新语料库的方法。 为实现上述目的,根据本发明实施例的第四方面,提供了一种计算机可读介质。 本发明实施例的一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现本发明实施例的更新语料库的方法。 上述发明中的一个实施例具有如下优点或有益效果:生成历史日志对应的新增语料,能够对用户近期高关注的咨询文本进行筛选、修复,得到新增语料,将其补充到线上语料库中,使线上语料库中的语料具有通用性,且可以不断跟随线上客服系统咨询的热点;利用线上语料库对应的埋点数据和词语得分表,确定出淘汰语料,自动将线上语料库中需要被淘汰的语料挑选出来,从而可以将过时或者低质量的语料删除;将新增语料补充至线上语料库中,将淘汰语料从线上语料库中删除,可以保障线上语料库中的语料数量维持在一定范围内,降低运营成本,减少工作量,还避免了现有技术中由于没有明确的淘汰机制,造成的语料暴涨、以及存在无法符合用户需求的过期语料的问题。 上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。 附图说明 附图用于更好地理解本发明,不构成对本发明的不当限定。其中: 图1是根据本发明实施例的更新语料库的方法的主要步骤的示意图; 图2是根据本发明实施例的生成历史日志对应的新增语料的方法的主要流程的示意图; 图3是根据本发明实施例的确定线上语料库中的淘汰语料的方法的主要流程的示意图; 图4是根据本发明实施例的更新语料库的系统的结构示意图; 图5是根据本发明实施例的更新语料库的装置的主要模块的示意图; 图6是本发明实施例可以应用于其中的示例性系统架构图; 图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。 具体实施方式 以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。 语料库的关键部分为语料的生成和语料的及时淘汰,当前可以采用生成式和构建式构建语料库。其中,生成式是事先确定好用户可能会咨询的问题句,然后将句子中的实体、形容词剥离出来,接着筛选符合物品特征的实体和形容词填入这些句子中。这种生成式的构建方法可以批量生成大量的语料,个性化较强,但是运营成本极高,具体体现在:问题句的筛选,会随着物品品类的不同而大不一样,且语料的丰富性和多样性导致了从无到有的挑选会产生很大工作量;需要自行维护语料中的实体和形容词等可变参数,对于运营的难度造成了障碍;语料的淘汰较为困难,没有明确的淘汰机制,会导致语料爆炸增长。构建式是以一定标准筛选出用户常见咨询语句,然后构建出语料库。对于构建式,不同品类物品对于的咨询问题不一样,导致得到的语料库不能具备通用性;此外,缺乏动态更新与淘汰机制,会导致语料过期,无法符合用户需求。 为了解决上述问题,本发明实施例提供一种更新语料库的方法和装置,能够不断从海量文本中过滤出高质量的新语料,并可以根据语料的实际运行情况,自动淘汰低质量的旧语料。图1是根据本发明实施例的更新语料库的方法的主要步骤的示意图。如图1所示,更新语料库的方法的主要步骤可以包括步骤S101至步骤S103。 步骤S101:对历史日志进行过滤压缩处理,生成历史日志对应的新增语料。 本发明实施例中,直接对近期的历史日志(可以但不限于是最近7天的日志)进行处理,得到新增语料,这样做的好处是,能够对用户近期高关注的咨询文本进行筛选、修复,得到新增语料,将其补充到线上语料库中。从日志库中可以获取历史日志,该日志库可以不断地补充新语料进入到线上语料库中,使线上语料库中的语料不断跟随线上客服系统咨询的热点。当然,在历史日志成为语料前,需要对历史日志进行过滤压缩操作,从而可以将历史日志中的劣质文本删除,可以将日志压缩成语料形式,成为正式语料。 此外,本发明实施例中的日志库可以为对话日志库,比如用户对某物品或某事情感兴趣时,可以在平台上咨询该物品或该事情,因此就可以得到用户与客服之间的对话语料,进而可以得到对话日志库。那么,本发明实施例中的历史日志可以为历史对话日志,明文日志可以为明文对话日志,当然历史日志也不限于历史对话日志,明文日志也不限于明文对话日志。还有,日志库还可以为聊天日志库,比如用户之间的聊天记录,得到的聊天日志库。需要注意的是,用户之间的聊天记录涉及到用户个人信息,因此聊天日志库中的聊天记录为已经得到用户同意使用的记录。 步骤S102:利用线上语料库对应的埋点数据和线上语料库对应的词语得分表,确定线上语料库中的淘汰语料。 埋点数据可以包括曝光数据和点击数据,是对线上语料库中的线上语料进行监控得到的。其中,曝光数据是指对线上语料的曝光次数进行监控得到的,具体形式为:在某时间某用户输入某词语,某条语料被曝光;曝光是指用户输入文字后,在输入框上方浮现的语料,可以设置每次浮现的语料数量的上限为3条。点击数据是指对线上语料的点击次数进行监控得到的,具体形式为:在某时间某用户输入某词语后,点击了某条曝光语料;点击是指用户点击了曝光在输入框上的某条语料。因此,从线上语料库对应的曝光数据和点击数据中,可以获取线上语料对应的曝光次数,即线上语料被曝光的次数,还可以获取线上语料对应的点击次数,即线上语料被点击的次数。 词语得分表是对线上语料库中的词语进行评分得到的,利用词语得分表,能够计算出每个线上语料的语料分数,进而可以根据语料分数判定线上语料是否需要淘汰。本发明的可参考实施例中,生成词语得分表的方法可以包括:获取线上语料库中的至少一个线上语料,对至少一个线上语料进行分词,获得至少一个线上语料分词;针对至少一个线上语料分词中的线上语料分词,统计线上语料分词在线上语料库中出现的次数,并根据统计的次数确定线上语料分词的词语分数,以生成线上语料库对应的词语得分表。 具体的,首先获取线上语料库中的所有线上语料;然后对每个线上语料进行分词,得到所有线上语料分词;接着针对每个线上语料分词,统计该线上语料分词在线上语料库中出现的次数,可以根据统计的次数,对该线上语料分词进行打分,得到该线上语料分词的词语分数,这样就可以得到每个线上语料分词的词语分数,进而生成线上语料库对应的词语得分表。需要注意的是,若一个线上语料分词在线上语料库中出现的次数越多,则表示该线上语料分词的词语分数越高。还有,在得到所有线上语料分词后,需要将无意义的但出现次数较高的词语过滤掉,比如,我、的、了等,本发明实施例中可以预先生成无意义词语表,让可以利用该无意义词语表对所有线上语料分词进行过滤。 利用线上语料库对应的埋点数据可以获取到线上语料的曝光次数和点击次数,利用线上语料库对应的词语得分表可以得到线上语料对应的语料分数,因此,可以结合线上语料的曝光次数、点击次数和语料分数,对线上语料进行评分,自动将线上语料库中需要被淘汰的语料挑选出来。 步骤S103:将新增语料补充至线上语料库中,将淘汰语料从线上语料库中删除,以更新线上语料库。 通过步骤S101可以得到历史日志对应的新增语料,通过步骤S102可以得到线上语料库中的淘汰语料,然后在步骤S103,将新增语料补充至线上语料库中,将淘汰语料从线上语料库中删除,完成线上语料库的更新。 本发明实施例的更新语料库技术方案,生成历史日志对应的新增语料,能够对用户近期高关注的咨询文本进行筛选、修复,得到新增语料,将其补充到线上语料库中,使线上语料库中的语料具有通用性,且可以不断跟随线上客服系统咨询的热点;利用线上语料库对应的埋点数据和词语得分表,确定出淘汰语料,自动将线上语料库中需要被淘汰的语料挑选出来,从而可以将过时或者低质量的语料删除;将新增语料补充至线上语料库中,将淘汰语料从线上语料库中删除,可以保障线上语料库中的语料数量维持在一定范围内,降低运营成本,减少工作量,还避免了现有技术中由于没有明确的淘汰机制,造成的语料暴涨、以及存在无法符合用户需求的过期语料的问题。 更新语料库可以包括如下两部分:新增语料补充和淘汰语料删除。对于新增语料补充,主要依赖于大数据系统的文本处理能力,核心是将历史日志中的劣质文本删除掉。本发明的可参考实施例中,对历史日志进行过滤压缩处理,生成历史日志对应的新增语料,可以包括:获取第一预设时间内的历史日志,对历史日志进行解密处理,获得明文日志;利用预设日志过滤规则,对明文日志进行过滤处理;对过滤处理后的明文日志进行压缩处理,获得明文日志对应的备选语料;基于预设筛选模型,对备选语料进行模型识别处理,生成新增语料。 生成新增语料的方法中,首先从日志库中获取第一预设时间内的历史日志,比如获取最近一周的历史日志,考虑到为了保护用户隐私,日志库中保存的日志均是经过加密处理的,所以在获取到历史日志后,需要对获取到的历史日志进行解密处理,得到明文日志。由于经过解密得到的明文日志的数据量庞大,可以利用预设日志过滤规则,对明文日志进行过滤处理,快速将明文日志中的低质量文本过滤掉。此时,仍然存在大量重复文本,可以对过滤处理后的明文日志进行压缩处理,将重复文本合并成为一条记录,进一步减少日志数量,得到明文日志对应的备选语料。最后,可以基于预设筛选模型,对备选语料进行模型识别处理,将备选语料中的不合规语料识别出来,达到再次过滤的目的。因为预设筛选模型效率较低以及耗时极大,因此本发明实施例中,首先利用预设日志过滤规则进行过滤处理,从而可以快速筛除大量低质量文本;然后将过滤处理后的明文日志中的重复文本合并成为一条记录,得到备选语料,让数据量进一步减小;最后利用预设筛选模型对备选语料进行模型识别处理,将备选语料中的不合规语料识别出来,最终得到新增语料。 其中,预设的日志过滤规则可以包括:基础过滤、去重处理、长度过滤、以及次数过滤。本发明的可参考实施例中,利用预设日志过滤规则,对明文日志进行过滤处理,可以包括: (1)对明文日志进行基础过滤,将明文日志中的系统默认消息、用户相关信息、网址、图片和特殊字符过滤掉,对明文日志中的表情符号进行替换。其中,系统默认消息可以是系统默认回复的且与用户输入关联性较弱的消息,因此需要将系统默认消息过滤掉;用户相关信息包括:地址、电话、用户名、信用卡、社交账号等与用户隐私相关的信息,因此需要将用户相关信息过滤掉;而网址、图片和特殊字符与用户输入联想的关联性较弱,因此需要将网址、图片和特殊字符过滤掉;表情符号可以表示用户的语气和态度,具有重要意义,因此需要将表情符号替换成一定格式; (2)对明文日志进行会话内去重处理,将每条明文日志中的重复会话过滤掉。由于在一条日志中,用户会复制粘贴自己发送过的文本再次发送,从而强调用户发送的文本的重要性,但不能说明该文本在其他日志中也具有相同作用,因此需要对该文本进行去重处理,仅保留一次即可; (3)对明文日志进行长度过滤,将明文日志中不符合预设字符长度的日志过滤掉。考虑到较短的日志无输入联系必要性,而较长的日志个性化细节过多,很难满足用户需求,因此综合考虑可以设置预设字符长度,如可以但不限于是将预设字符长度设置为5字符到20字符范围内,对每条明文日志的长度进行分析,将不再预设字符长度范围内的日志过滤掉; (4)对明文日志进行次数过滤,将明文日志中在第二预设时间内出现的次数小于预设次数的日志过滤掉。对于第一预设时间内的明文日志,针对每条明文日志,查看该条明文日志在第二预设时间内出现的次数,若出现的次数大于等于预设次数,则可以认为该条明文日志具备泛化能力,可用于多种场景中,若出现的次数小于预设次数,则可以将该条明文日志淘汰。其中,第一预设时间小于第二预设时间,如第一预设时间可以是最近7天,第二预设时间可以是最近20天。 上述(1)至(4)描述了利用预设日志过滤规则对明文日志进行过滤处理,需要注意的是,(1)至(4)的执行顺序可以根据实际情况调整,本发明实施例对此不做限定。在对明文日志进行过滤处理后,可以将日志中大量劣质文本过滤掉,但是考虑到仍然存在大量重复文本,因此需要对过滤处理后的明文日志进行压缩处理。所以本发明的可参考实施例中,对过滤处理后的明文日志进行压缩处理,获得明文日志对应的备选语料,可以包括:按照过滤处理后的明文日志在第二预设时间内出现的次数,对过滤处理后的明文日志进行压缩处理,得到备选语料。统计过滤处理后的明文日志在第二预设时间内出现的次数,然后可以按照出现的次数,将重复的明文日志合并成为一条记录,得到明文日志对应的备选语料,从而能够进一步减少日志数量。 对明文日志进行过滤处理后,可以将日志中大量劣质文本过滤掉,但是过滤后得到的明文日志中还存在负向情绪日志以及不合规的日志,因此需要进一步进行筛选处理。因此本发明的可参考实施例中,基于预设筛选模型,对备选语料进行模型识别处理,生成新增语料,可以包括:将备选语料输入负向情绪识别模型中,识别出负向情绪语料,将备选语料输入敏感合规模型中,识别出不合规语料;将负向情绪语料和不合规语料从备选语料中删除,生成新增语料。 负向情绪识别模型和敏感合规模型均为深度学习模型,属于成熟技术,此处不累述模型的具体构建过程。负向情绪识别模型用于识别出情绪偏向消极、愤怒、不满的语料,命名为负向情绪语料;敏感合规模型用于识别不符合规定的、或者是广告推广或骚扰等类型的词语,如果语料中包含这些词语,则该语料命名为不合规语料。识别出负向情绪语料和不合规语料后,将这些语料从备选语料中删除掉,得到的为新增语料。 图2是根据本发明实施例的生成历史日志对应的新增语料的方法的主要流程的示意图。如图2所示,生成历史日志对应的新增语料的方法的主要流程可以包括: 步骤S201,获取第一预设时间内的历史日志,对历史日志进行解密处理,获得明文日志; 步骤S202,对明文日志进行基础过滤,将明文日志中的系统默认消息、用户相关信息、网址、图片和特殊字符过滤掉,对明文日志中的表情符号进行替换; 步骤S203,对明文日志进行会话内去重处理,将每条明文日志中的重复会话过滤掉; 步骤S204,对明文日志进行长度过滤,将明文日志中不符合预设字符长度的日志过滤掉; 步骤S205,对明文日志进行次数过滤,将明文日志中在第二预设时间内出现的次数小于预设次数的日志过滤掉; 步骤S206,按照过滤处理后的明文日志在第二预设时间内出现的次数,对过滤处理后的明文日志进行压缩处理,得到备选语料; 步骤S207,将备选语料输入负向情绪识别模型中,识别出负向情绪语料,将备选语料输入敏感合规模型中,识别出不合规语料; 步骤S208,将负向情绪语料和不合规语料从备选语料中删除,生成新增语料。 其中,步骤S202至步骤S205用于对明文日志进行过滤,具体的执行顺序可以根据实际情况调整,本发明实施例对此不做限定,还有具体的过滤方法中,可以从基础过滤、去重处理、长度过滤、以及次数过滤多个角度进行处理,能够将低质量文本删除掉,提高新增语料的准确性。此外,生成新增语料的方法中,还利用负向情绪识别模型和敏感合规模型,将识别出的负向情绪语料和不合规语料删除掉,进一步提高新增语料的准确性。 利用线上语料库对应的埋点数据和词语得分表,确定出淘汰语料,自动将线上语料库中需要被淘汰的语料挑选出来,从而可以将过时或者低质量的语料删除。本发明的可参考实施例中,埋点数据可以包括曝光数据和点击数据;以及,利用线上语料库对应的埋点数据和词语得分表,确定线上语料库中的淘汰语料,可以包括:针对至少一个线上语料中的线上语料,从曝光数据中获得线上语料对应的曝光次数,从点击数据中获得线上语料对应的点击次数;根据线上语料对应的曝光次数、线上语料对应的点击次数和词语得分表,判断线上预料是否符合预设的淘汰条件,若是,则确定线上预料为淘汰预料,以得到线上语料库中的淘汰语料。 其中,预设的淘汰条件可以为:(1)若线上语料对应的曝光次数为零,则确定线上语料为淘汰语料;(2)若线上语料对应的曝光次数大于第一预设曝光次数,且线上语料对应的点击次数小于预设点击次数,则确定线上语料为淘汰语料;(3)若线上语料对应的曝光次数小于第二预设曝光次数且大于零,则利用词语得分表计算线上语料对应的语料分数,在语料分数小于预设分数的情况下,确定线上语料为淘汰语料。 对线上语料库中的每个线上语料进行分析,从曝光数据中获得该线上语料对应的曝光次数,从点击数据中获取该线上语料对应的点击次数。如果某线上语料对应的曝光次数为零,则说明该线上语料未被曝光过,则可以直接确定该线上语料为淘汰语料。如果某线上语料对应的曝光次数大于第一预设曝光次数,且该线上语料对应的点击次数小于预设点击次数,表示该线上语料被曝光的次数较高但被点击的次数较低,还说明该线上语料会频繁出现在用户界面但不满足用户需求,造成点击率下降,因此可以确定该线上语料为淘汰语料。如果某线上语料对应的曝光次数小于第二预设曝光次数且大于零,可以利用词语得分表计算该线上语料对应的语料分数,在语料分数小于预设分数的情况下,确定该线上语料为淘汰语料。针对曝光次数小于第二预设曝光次数且大于零的线上语料,需要利用词语得分表计算该线上语料对应的语料分数,然后判断该语料分数是否小于预设分数,若是,则认为该线上语料为淘汰语料。其中,利用词语得分表计算该线上语料对应的语料分数,具体为:对该线上语料进行分词,利用词语得分表查找每个分词对应的词语分数,对查找得到的词语分数进行平均值计算,得到的平均分为该线上语料对应的语料分数。 图3是根据本发明实施例的确定线上语料库中的淘汰语料的方法的主要流程的示意图。如图3所示,确定线上语料库中的淘汰语料的方法的主要流程可以包括: 步骤S301,获取线上语料库对应的曝光数据和点击数据; 步骤S302,获取线上语料库中的至少一个线上语料,对至少一个线上语料进行分词,获得至少一个线上语料分词; 步骤S303,针对至少一个线上语料分词中的线上语料分词,统计线上语料分词在线上语料库中出现的次数,并根据统计的次数确定线上语料分词的词语分数,以生成线上语料库对应的词语得分表; 步骤S304,从至少一个线上语料中,随机选择一个线上语料; 步骤S305,从曝光数据中获得该线上语料对应的曝光次数,从点击数据中获得该线上语料对应的点击次数; 步骤S306,若该线上语料对应的曝光次数为零,则确定该线上语料为淘汰语料; 步骤S307,若该线上语料对应的曝光次数大于第一预设曝光次数,且该线上语料对应的点击次数小于预设点击次数,则确定该线上语料为淘汰语料; 步骤S308,若该线上语料对应的曝光次数小于第二预设曝光次数且大于零,则利用该词语得分表计算该线上语料对应的语料分数,在该语料分数小于预设分数的情况下,确定该线上语料为淘汰语料; 步骤S309,判断是否已经分析线上语料库中的所有线上语料,若是,则流程结束,若否,则执行步骤S304。 需要注意的是,步骤S302和步骤S303用于生成线上语料库对应的词语得分表,它们的执行顺序可以根据实际情况调整,在步骤S308之前执行即可。此外,步骤S306至步骤S308用于确定线上语料库中的淘汰语料,可以同时执行步骤S306至步骤S308,也可以按照从步骤S306至步骤S308的顺序执行,具体的执行顺序可以根据实际情况调整,对此不做限定。具体的确定淘汰语料的方法中,利用线上语料库对应的埋点数据可以获取到线上语料的曝光次数和点击次数,利用线上语料库对应的词语得分表可以得到线上语料对应的语料分数,因此,结合线上语料的曝光次数、点击次数和语料分数,对线上语料进行评分,自动将线上语料库中需要被淘汰的语料挑选出来,解决了现有技术中由于没有明确的淘汰机制,造成的语料暴涨、以及存在无法符合用户需求的过期语料的问题。 在生成新增语料后,可以为新增语料添加应用场景相关的特征,用于在语料查找阶段提供联想依据,使得语料在被联想时与咨询场景更加匹配,使得到的联想语料更加准确。所以本发明的可参考实施例中,在生成历史日志对应的新增语料之后,更新语料库的方法还可以包括:获取新增语料对应的特征,建立获取的特征与新增语料的对应关系,特征包括品类类型、品牌类型、和/或咨询入口类型;以及,对新增语料进行埋点,监控新增语料对应的曝光次数和点击次数。 其中,特征可以包括:品类类型、品牌类型、和/或咨询入口类型。品类类型是指新增语料中物品对应的品类,品类信息库可以根据用户咨询不同物品时的语料,对该语料进行分类,为该语料匹配出品类类型;品牌类型是指新增语料中物品对应的品牌,物品信息库中保存有语料与不同物品的对应关系,针对不同的物品,将语料归类,可以获得该语料对应的品牌类型;咨询入口类型是指新增语料对应的咨询入口,如用户从物品详情页进入,则在该会话未结束前,每条文本会标记上物品详情入口,用户从售后咨询进入,则每条文本会标记上售后咨询入口。此外,生成新增语料后,需要将新增语料补充至线上语料库中,即该新增语料可以看作为线上语料,因此可以获取其对应的曝光数据和点击数据,作为该新增语料的曝光点击特征。本发明实施例中,为新增语料添加对应的特征后,在用户进行输入联想时,会根据添加的语料品类类型、语料品牌类型、语料咨询入口类型、语料曝光点击特征,从线上数据库中取出对应的语料。 图4是根据本发明实施例的更新语料库的系统的结构示意图。图4中,日志库主要为了不断的补充新增语料进入到线上语料库中,使线上语料库中的语料不断跟随线上客服系统咨询的热点。在日志成为新增语料前,会对日志进行过滤、去重、截取、替换、压缩、脱敏、违规检测等一系列操作,然后成为新增语料。还需要对线上语料库中的线上语料进行淘汰,具体会针对语料曝光次数、语料点击次数、以及语料分数指标对线上语料进行评分,得到淘汰语料。利用新增语料和淘汰语料对线上语料库进行更新,具体的,将新增语料补充至线上语料库中,将淘汰语料从线上语料库中删除,这样能够保障线上语料库的总量符合一定数量范围。此外,还需要对线上语料库进行数据埋点,统计线上语料的曝光次数和点击次数,得到线上语料库对应的曝光数据和点击数据。 根据本发明实施例的更新语料库技术方案,生成历史日志对应的新增语料,能够对用户近期高关注的咨询文本进行筛选、修复,得到新增语料,将其补充到线上语料库中,使线上语料库中的语料具有通用性,且可以不断跟随线上客服系统咨询的热点;利用线上语料库对应的埋点数据和词语得分表,确定出淘汰语料,自动将线上语料库中需要被淘汰的语料挑选出来,从而可以将过时或者低质量的语料删除;将新增语料补充至线上语料库中,将淘汰语料从线上语料库中删除,可以保障线上语料库中的语料数量维持在一定范围内,降低运营成本,减少工作量,还避免了现有技术中由于没有明确的淘汰机制,造成的语料暴涨、以及存在无法符合用户需求的过期语料的问题。 图5是根据本发明实施例的更新语料库的装置的主要模块的示意图。如图5所示,更新语料库的装置500的主要模块可以包括:生成模块501、确定模块502和更新模块503。 其中,生成模块501可用于对历史日志进行过滤压缩处理,生成历史日志对应的新增语料;确定模块502可用于利用线上语料库对应的埋点数据和线上语料库对应的词语得分表,确定线上语料库中的淘汰语料;更新模块503可用于将新增语料补充至线上语料库中,将淘汰语料从线上语料库中删除,以更新线上语料库。 本发明实施例中,生成模块501还可用于:获取第一预设时间内的历史日志,对历史日志进行解密处理,获得明文日志;利用预设日志过滤规则,对明文日志进行过滤处理;对过滤处理后的明文日志进行压缩处理,获得明文日志对应的备选语料;基于预设筛选模型,对备选语料进行模型识别处理,生成新增语料。 本发明实施例中,生成模块501还可用于:对明文日志进行基础过滤,将明文日志中的系统默认消息、用户相关信息、网址、图片和特殊字符过滤掉,对明文日志中的表情符号进行替换;对明文日志进行会话内去重处理,将每条明文日志中的重复会话过滤掉;对明文日志进行长度过滤,将明文日志中不符合预设字符长度的日志过滤掉;对明文日志进行次数过滤,将明文日志中在第二预设时间内出现的次数小于预设次数的日志过滤掉。 本发明实施例中,生成模块501还可用于:按照过滤处理后的明文日志在第二预设时间内出现的次数,对过滤处理后的明文日志进行压缩处理,得到备选语料。 本发明实施例中,生成模块501还可用于:将备选语料输入负向情绪识别模型中,识别出负向情绪语料,将备选语料输入敏感合规模型中,识别出不合规语料;将负向情绪语料和不合规语料从备选语料中删除,生成新增语料。 本发明实施例中,确定模块502还可用于:获取线上语料库中的至少一个线上语料,对至少一个线上语料进行分词,获得至少一个线上语料分词;针对至少一个线上语料分词中的线上语料分词,统计线上语料分词在线上语料库中出现的次数,并根据统计的次数确定线上语料分词的词语分数,以生成线上语料库对应的词语得分表。 本发明实施例中,埋点数据可以包括:曝光数据和点击数据。以及,确定模块502还可用于:针对至少一个线上语料中的线上语料,从曝光数据中获得线上语料对应的曝光次数,从点击数据中获得线上语料对应的点击次数;根据线上语料对应的曝光次数、线上语料对应的点击次数和词语得分表,判断线上预料是否符合预设的淘汰条件,若是,则确定线上预料为淘汰预料,以得到线上语料库中的淘汰语料。 本发明实施例中,确定模块502还可用于:若线上语料对应的曝光次数为零,则确定线上语料为淘汰语料;若线上语料对应的曝光次数大于第一预设曝光次数,且线上语料对应的点击次数小于预设点击次数,则确定线上语料为淘汰语料;若线上语料对应的曝光次数小于第二预设曝光次数且大于零,则利用词语得分表计算线上语料对应的语料分数,在语料分数小于预设分数的情况下,确定线上语料为淘汰语料。 本发明实施例中,生成模块501还可用于:获取新增语料对应的特征,建立获取的特征与新增语料的对应关系,特征包括品类类型、品牌类型、和/或咨询入口类型;以及,对新增语料进行埋点,监控新增语料对应的曝光次数和点击次数。 从以上描述可以看出,本发明实施例的更新语料库的装置,生成历史日志对应的新增语料,能够对用户近期高关注的咨询文本进行筛选、修复,得到新增语料,将其补充到线上语料库中,使线上语料库中的语料具有通用性,且可以不断跟随线上客服系统咨询的热点;利用线上语料库对应的埋点数据和词语得分表,确定出淘汰语料,自动将线上语料库中需要被淘汰的语料挑选出来,从而可以将过时或者低质量的语料删除;将新增语料补充至线上语料库中,将淘汰语料从线上语料库中删除,可以保障线上语料库中的语料数量维持在一定范围内,降低运营成本,减少工作量,还避免了现有技术中由于没有明确的淘汰机制,造成的语料暴涨、以及存在无法符合用户需求的过期语料的问题。 图6示出了可以应用本发明实施例的更新语料库的方法或更新语料库的装置的示例性系统架构600。 如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。 用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。 终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。 服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。 需要说明的是,本发明实施例所提供的更新语料库的方法一般由服务器605执行,相应地,更新语料库的装置一般设置于服务器605中。 应该理解,图6中的终端设备、网络和服务器的数量仅仅是示意性的。根据实现需要,可以具有任意数量的终端设备、网络和服务器。 下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。 如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。 以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。 特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。 需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。 附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。 描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括生成模块、确定模块和更新模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,生成模块还可以被描述为“对历史日志进行过滤压缩处理,生成历史日志对应的新增语料的模块”。 作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:对历史日志进行过滤压缩处理,生成历史日志对应的新增语料;利用线上语料库对应的埋点数据和线上语料库对应的词语得分表,确定线上语料库中的淘汰语料;将新增语料补充至线上语料库中,将淘汰语料从线上语料库中删除,以更新线上语料库。 根据本发明实施例的技术方案,生成历史日志对应的新增语料,能够对用户近期高关注的咨询文本进行筛选、修复,得到新增语料,将其补充到线上语料库中,使线上语料库中的语料具有通用性,且可以不断跟随线上客服系统咨询的热点;利用线上语料库对应的埋点数据和词语得分表,确定出淘汰语料,自动将线上语料库中需要被淘汰的语料挑选出来,从而可以将过时或者低质量的语料删除;将新增语料补充至线上语料库中,将淘汰语料从线上语料库中删除,可以保障线上语料库中的语料数量维持在一定范围内,降低运营成本,减少工作量,还避免了现有技术中由于没有明确的淘汰机制,造成的语料暴涨、以及存在无法符合用户需求的过期语料的问题。 上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。