一种基于化合物的搜索引擎和搜索方法

文档序号:488978 发布日期:2022-01-04 浏览:40次 >En<

阅读说明:本技术 一种基于化合物的搜索引擎和搜索方法 (Search engine and search method based on compound ) 是由 常闻宇 于 2021-10-15 设计创作,主要内容包括:本申请涉及一种基于化合物的搜索引擎和搜索方法,化合物搜索引擎包括:化合物搜索模块,用于接收搜索描述并将其转化为搜索标识,化合物本地缓存模块和本地存储模块用于根据搜索标识在私有云上进行搜索,公共云化合物缓存模块和公共云化合物存储模块用于根据搜索标识在公有云上进行搜索,搜索结构都更新至化合物本地缓存模块;搜索方法是根据用户的搜索描述,搜索引擎先在本地模块上匹配是否有用户请求的信息,若没有匹配,则通过公共云模块进行匹配,实现对常用搜索目标物进行高效返回。本申请通过采用混合云的缓存机制高效提高搜索效率,并缓解了存储压力,可广泛应用于混合云的高效使用。(The present application relates to a compound-based search engine and a search method, the compound search engine comprising: the compound searching module is used for receiving the searching description and converting the searching description into a searching identifier, the compound local cache module and the local storage module are used for searching on the private cloud according to the searching identifier, the public cloud compound cache module and the public cloud compound storage module are used for searching on the public cloud according to the searching identifier, and the searching structure is updated to the compound local cache module; according to the search method, according to the search description of the user, the search engine is matched with the information whether the user requests or not on the local module, if not, the public cloud module is used for matching, and the purpose of efficiently returning the common search target object is achieved. According to the method and the device, the searching efficiency is efficiently improved by adopting the cache mechanism of the hybrid cloud, the storage pressure is relieved, and the method and the device can be widely applied to efficient use of the hybrid cloud.)

一种基于化合物的搜索引擎和搜索方法

技术领域

本申请涉及数据搜索技术领域,尤其是涉及一种基于化合物的搜素引擎和搜索方法。

背景技术

医疗健康历来是社会民生关注的焦点问题,是国家发展和人民健康的重中之重,化学实验是推动医疗健康获得突破性进展的重要手段。伴随着经济和网络技术的不断发展,越来越多的行业都从传统行业逐渐转变到"互联网+"中来,借助于网络信息平台,将互联网与传统产业相融合,利用互联网所具有的优势特征,创造新的发展机遇,为企业提供更加快捷方便的服务。因为市面上出现了各种信息化解决方案,帮助医疗健康领域的企业更高效的研发和管理。

在所有的系统中,由于行业特性,化合物搜索是所有系统共有的属性。然后目前市面上有各种化合物库,企业内部又有属于企业自己的具有机密性质的化合物库,如何有效的管理这两部分库成了所有系统共有的问题。

目前常见的做法比较低效,用户或者系统需要同时对外部和内部分开搜索,这样造成搜索效率低;另外由于搜索分开,所以无法做到系统优化,无法对搜索过的化合物进行缓存以便下一次搜索。

因此有必要提供一种基于化工行业的搜索方法,实现化合物的搜索,并且有效的提高搜索速率以及缓解存储压力。

发明内容

本申请要解决的技术问题是现有技术中用户或者系统需要同时对外部和内部分开搜索,这样造成搜索效率低,另外由于搜索分开,无法做到系统优化,便于下次搜索。

为解决上述技术问题,根据本申请的一个方面,提供一种基于化合物的搜索引擎,包括:化合物搜索模块,接收输入的搜索描述,并将搜索描述转化为搜索标识;化合物本地缓存模块,根据搜索标识在化合物本地内存中进行搜索,得到本地缓存搜索结果并缓存;化合物本地存储模块,根据搜索标识在化合物本地存储中进行搜索,得到本地存储搜索结果并返回至化合物本地缓存模块;公共云化合物缓存模块,根据搜索标识在公共云化合物内存中进行搜索,得到公共云化合物缓存搜索结果并返回至化合物本地缓存模块和本地化合物存储模块;公共云化合物存储模块,根据搜索标识在公共云化合物存储中进行搜索,得到公共云化合物存储搜索结果并返回至化合物本地缓存模块、本地化合物存储模块和公共云化合物缓存模块。

根据本申请的实施例,搜索引擎还包括搜索频率检测服务器,连接化合物本地缓存模块并连接到相应的搜索信息测试其在一个时间段内的搜索频率。根据搜索频率检测服务器检测出的结果,化合物本地缓存模块自动清除搜索频率低或搜索频率为0的相应化合物的信息。

根据本申请的实施例,化合物的搜索描述可以包括化合物ID、化合物名称、化合物别名、化合物CAS号、化合物的分子式、化合物的分子量、化合物的INCHI串、化合物的SMILES串、化合物的标签、化合物所属的分类以及化合物的属性组。

根据本申请的实施例,化合物本地缓存模块、化合物本地存储模块、公共云化合物缓存模块和公共云化合物存储模块包括多种化合物及其属性,所述化合物的属性包括化合物分子量,化合物分子式,化合物结构式,化合物名称,化合物CAS号,化合物密度,化合物图谱/质谱信息,化合物毒理信息,化学品属性,生物测试数据以及合成路线。

根据本申请的实施例,搜索标识可包括文字精确搜索标识、文字模糊搜索标识以及根据化合物结构式计算出的相应的搜索权重标识。

根据本申请的实施例,将化合物搜索描述转化为搜索标识可包括以下步骤:对搜索描述进行过滤,过滤掉无法与系统相匹配的内容;对搜索描述进行输入清洗,即没有相匹配的搜索标识则反馈搜索无结果。

根据本申请的实施例,用户端第一次搜索接收到返回的搜索结果后,在第二次搜索类似化合物时,系统对第一次搜索结果中的所有信息都从化合物本地缓存模块中快速调取并反馈。

根据本申请的实施例,化合物公共云存储模块还可设有公共云数据接口和商业云数据的统一API接口。

根据本申请的另一方面,提供一种基于化合物的搜索方法,采用了上述的搜索引擎,搜索方法的具体步骤如下:

1)用户端输入搜索描述,化合物搜索模块接收搜索描述并将其转化为搜索标识;

2)根据所述搜索标识,系统首先在化合物本地缓存模块在化合物本地内存中进行搜索,得到的化合物本地缓存搜索结果返回给用户端并进行缓存;

3)当步骤2反馈搜索无结果,化合物本地存储模块根据搜索标识在所述化合物本地存储中进行搜索,得到的化合物本地存储搜索结果返回用户并上传到化合物本地缓存模块;

4)当步骤3反馈搜索无结果,系统自动在化合物公共云缓存模块根据搜索标识进行搜索,得到的化合物公共云缓存搜索结果返回给用户端并上传到化合物本地缓存模块、化合物本地存储模块;

5)当步骤4反馈搜索无结果,化合物公共云缓存模块根据搜索标识在化合物公共云存储中进行搜索,得到的化合物公共云存储搜索结果返回给用户端并上传至化合物公共云缓存模块、化合物本地缓存模块和化合物本地存储模块。

与现有技术相比,本发明具有以下有益效果:

1.将内部的高速存储介质容量作为混合云存储的缓冲区,扩大了缓存容量,统一了内部数据库和外部数据库搜索到的内容,对于常用搜索化合物进行高效返回,显著提高用户访问数据的效率;

2.采用动态缓存机制,设计了搜索频率检测服务器,使系统自动清理掉不常用的化合物的信息,减少资源消耗;依据搜索频率的变化对缓存区数据进行实时动态的更新,加快内网用户访问原先公有云上常用数据的速度,降低了公有云上常用数据丢失的风险,同时减少带宽和流量的访问成本。

3.采用应用程序的API接口,统一接口,允许对接多数据源,支持各类商业数据库的对接,多库数据统一归类整理,返回统一结构数据,方便系统上层进行统一对比和管理。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本申请的一些实施例,而非对本申请的限制。

图1为本发明实施例提供的基于化合物的搜索引擎的结构示意图;

图2为本发明实施例提供的基于化合物的搜索方法流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例的附图,对本申请实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于所描述的本申请的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。

除非另作定义,此处使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。

图1是根据本发明一个实施例的基于化合物的搜索引擎的组成结构图。如图1所示,该基于化合物的混合云搜索引擎包括:

化合物搜索模块,用于接收用户端输入的搜索请求并将搜索请求进行匹配处理转化成系统可以识别的搜索标识,也可以接收搜索引擎的搜索结果将其返回给用户端。

进一步地,用户端可以是PC(Personal Computer,个人计算机)机、移动终端以及其他应用程序接口,用以显示搜索引擎返回的搜索结果。移动终端可以是手机、平板电脑等具有各种操作系统的硬件设备。

进一步地,对用户端输入的搜索请求进行匹配处理,可以根据搜索请求的数据进行过滤和输入清洗,保证数据完整和符合后续模块的格式要求。过滤用于过滤掉无法与搜索系统相匹配的部分,输入清洗用于没有与搜索系统相匹配的部分时则反馈搜索无结果。

进一步,搜索标识可分为文字精确搜索标识、文字模糊搜索标识以及结构的搜索权重标识,例如,用户输入的搜索请求是化合物CAS号或化合物名称,则目标物搜索模块将其转化为系统对应的文字精确搜索标识;当用户输入的搜素请求为化合物名称的模糊搜索,则目标物搜索模块将其转化为系统对应的模糊搜索标识;用户输入的搜索请求是化合物结构搜索,系统首先转换该结构信息为系统可识别结构式,再通过该结构计算出相应的搜索权重标识。

化合物本地缓存模块,用以根据搜索标识在本地内存中搜索并获得本地缓存搜索结果,本地缓存模块还可以保存本地缓存搜索结果并将其发送给用户端。

进一步地,化合物本地缓存模块支持本地存储,但数据大部分存在于本地内存之中,本地内存中的数据主要为用户之前搜索过的数据以及系统根据目标物的相关性提前自动搜索的结果。本地缓存模块还同时支持本地数据库的缓存和公共数据库的数据缓存。由此,本地缓存模块具有私有云的预设高速存储介质容量。本实施例中,化合物本地缓存模块也具备自动清理功能,以节省有限的高速存储介质资源,保证有限的高速存储介质资源利用率。对于一些搜索频率较低的或者长时间未被搜索的目标物信息进行清理,以减少本地存储容量的消耗。如可以根据用户搜索目标物的搜索频率智能清理本地缓存模块中缓存信息,具体设计一个搜索频率检测服务器,按预设时间间隔统计接收目标物搜索频率,对于搜索频率低或设定的时间间隔内物无搜索的目标物的相关信息进行自动清理。

进一步地,对于化合物本地缓存模块的存储介质的具体选择,可以由设计人员自行设置,本实施例对此不受限制。

化合物本地存储模块,包括本地存储库。目前主流的数据库分为关系型数据库和非关系型数据库,本地存储库可为关系型或者非关系型数据库,用于保存本地信息。化合物本地存储模块用于根据搜索标识在本地存储库进行搜索并获得本地存储搜索结果。

进一步地,化合物本地存储模块还支持多目标物的模糊搜索和精确搜索。例如,搜索标识为文字精确搜索,则化合物本地存储模块在本地存储中进行精确搜索;当搜索标识为系统对应的模糊搜索标识时,则化合物本地存储模块在本地存储中进行模糊搜索。化合物本地存储模块的搜索结果会返回并保存至本地缓存模块。

公共云化合物缓存模块,用于根据搜索标识在公共云内存中进行搜索并获得公共云缓存搜索结果,公共云缓存搜索结果还会返回并保存至本地缓存模块和本地存储模块。

进一步地,公共云化合物缓存模块可识别文字精确搜索标识、文字模糊搜索标识和结构搜索权重标识,搜索到相关数据可直接返回给用户端。

进一步地,公共云化合物缓存模块支持对于商业云数据的远程调用,并对返回的数据进行格式化处理。

公共云存储模块,用于根据搜索标识在公共云存储中进行搜索并获得公共云存储搜索结果,公共云存储搜索结果还会返回并保存至本地缓存模块和本地存储模块。

进一步地,公共云化合物存储模块设有公共云数据接口以及相应商业云数据通用接口。商业数据库1,商业数据库2,商业数据库3…都可以通过统一的API接口与公共云化合物存储模块连接,从而搜索引擎支持对商业云数据的远程调用,并对返回的数据进行格式化的处理,实现多库数据统一归类整理,返回统一结构数据,方便系统上层进行统一对比和管理。

参考图2,图2为本发明实施例提供的一种基于化合物的搜索方法,该方法采用了上述实施例所述的搜索引擎,该方法具体步骤可包括:

1)用户端输入搜索描述,化合物搜索模块接收搜索描述并将其转化为搜索标识;

2)根据搜索标识,系统首先在化合物本地缓存模块在化合物本地内存中进行搜索,得到的化合物本地缓存搜索结果返回给用户端并进行缓存;

3)当步骤2反馈搜索无结果,化合物本地存储模块根据搜索标识在化合物本地存储中进行搜索,得到的化合物本地存储搜索结果返回用户并上传到化合物本地缓存模块;

4)当步骤3反馈搜索无结果,系统自动在化合物公共云缓存模块根据搜索标识进行搜索,得到的化合物公共云缓存搜索结果返回给用户端并上传到化合物本地缓存模块、化合物本地存储模块;

5)当步骤4反馈搜索无结果,化合物公共云缓存模块根据搜索标识在化合物公共云存储中进行搜索,得到的化合物公共云存储搜索结果返回给用户端并上传至化合物公共云缓存模块、化合物本地缓存模块和化合物本地存储模块。

综上,本申请的搜索方法经过一次搜索,系统可以将搜索结果累计和更新到化合物本地缓存模块,便于下次搜索类似化合物时本地缓存可高速返回搜索结果。

进一步地,本发明实施例中阐述的基于云缓存机制的混合云搜索方法还包括本地缓存模块的自动清理步骤,定时清除搜索频率低或无搜索频率的相关信息,保障本地缓存的储存容量。

本实施例中,具体阐述以下采用基于动态缓存机制的混合云搜索引擎进行化合物搜索的搜索方法:

1.用户端输入化合物的CAS号码或化合物的标准名中英文名称或化合物的结构式或化合物的中英文别名等,并且可以选择是精确搜索或模糊搜索。目标物搜索模块根据用户的搜索条件,转化成系统可以辨识的搜索标识:如果是CAS号搜索,即为简单的文字精确搜索标识;如果是化合物名称搜索,可选择精确搜索或模糊搜索,相应地,系统将化合物名称搜索转化为简单的文字精确搜索标识或对应的模糊搜索标识;如果是化合物结构搜索,目标物搜索模块首先转换该结构信息为系统可识别结构式,再通过该结构计算出相应的搜索权重标识;

2.本地缓存模块通过上述得到的搜索标识,在本地缓存系统中进行搜索:如在本地缓存即本地内存中搜索到相关数据,则搜索结果直接由目标物搜索模块接受然后返回给前端的用户端,并且保存该搜索结果更新缓存机制;如在本地缓存系统没搜索到相关数据,系统从本地存储数据即本地分存储中搜索到相关数据,本地存储的搜索结果有目标物搜索模块接收并直接返回给前端的用户端,并且把该本地存储的搜索结果传输给本地缓存模块,增加本地缓存即本地内存的内容;

3.如在本地缓存模块和本地存储模块都没有搜索到与化合物相匹配的数据,系统自动通过连接到混合云中的公共云进行搜索:根据目标物搜索模块的搜索标识,系统首先在公共云缓存即公共云内存中搜索相关数据,公共云缓存搜索结果由目标物搜索模块接收并直接返回给前端用户,并且保存该搜索结果以更新公共云缓存机制,同时把公共云缓存搜索结果输送至本地缓存模块和本地存储模块,将公共云缓存内容保存在本地存储中;

4.如按照步骤2和步骤3的操作都没有没搜索到相关数据,系统将自动从公共云存储中搜索到相关数据,公共云存储搜索结果由目标物搜索模块接收并直接返回给前端的用户端,并且把公共云存储搜索结果送至公共云缓存模块,同时也将公共云存储搜索结果输送至本地缓存模块和本地存储模块,即此,搜索过程结束。化合物本地缓存模块对此次的搜索结果进行累计和更新,为下次类似化合物的搜索做好准备。

上述的搜索引擎根据客户端输入的化合物搜索请求,系统进行精确搜索或模糊搜索后,系统会返回相关的搜索结果,结果中可包括该化合物基本信息如分子量、分子式、结构式、名称、CAS号、密度等,根据化合物还可以进一步获得该化合物的更多信息,比如图谱/质谱信息、毒理信息、化学品属性、生物测试数据、合成路线等。

综上所述,本发明具有以下有益效果:

1.将内部的高速存储介质容量作为混合云存储的缓冲区,扩大了缓存容量,统一了内部数据库和外部数据库搜索到的内容,对于常用搜索化合物进行高效返回,显著提高用户访问数据的效率;

2.采用动态缓存机制,设计了搜索频率检测服务器,使系统自动清理掉不常用的化合物的信息,减少资源消耗;依据搜索频率的变化对缓存区数据进行实时动态的更新,加快内网用户访问原先公有云上常用数据的速度,降低了公有云上常用数据丢失的风险,同时减少带宽和流量的访问成本。

3.采用应用程序的API接口,统一接口,允许对接多数据源,支持各类商业数据库的对接,多库数据统一归类整理,返回统一结构数据,方便系统上层进行统一对比和管理。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

以上所述仅是本申请的示范性实施方式,而非用于限制本申请的保护范围,本申请的保护范围由所附的权利要求确定。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种多晶材料中晶粒取向关系的运算方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!