特征量计算方法、特征量计算程序及特征量计算装置、筛选方法、筛选程序及筛选装置、化合物创建方法、化合物创建程序及化合物创建装置

文档序号:1866361 发布日期:2021-11-19 浏览:16次 >En<

阅读说明:本技术 特征量计算方法、特征量计算程序及特征量计算装置、筛选方法、筛选程序及筛选装置、化合物创建方法、化合物创建程序及化合物创建装置 (Feature amount calculation method, feature amount calculation program, feature amount calculation device, screening method, screening program, screening device, compound creation method, compound crea) 是由 津村享佑 大平诗野 中林淳 武井瑞希 于 2020-03-25 设计创作,主要内容包括:本发明的目的在于提供一种能够计算出准确表示对象结构体的化学性质的特征量的特征量计算方法、特征量计算程序、特征量计算装置、能够使用特征量来有效进行医药候选化合物的筛选的筛选方法、筛选程序、筛选装置及能够使用特征量来有效创建医药候选化合物的立体结构的化合物创建方法、化合物创建程序、化合物创建装置。对象结构体的化学性质被表示为对象结构体与其周围的探针之间的相互作用的结果,因此在对象结构体彼此之间探针的聚集程度相似是表示这些对象结构体的化学性质相似的情况。因此,通过本发明的一方式所涉及的特征量计算方法,能够计算出准确表示对象结构体的化学性质的特征量。(An object of the present invention is to provide a feature amount calculation method, a feature amount calculation program, a feature amount calculation device, a screening method, a screening program, a screening device, and a compound creation method, a compound creation program, and a compound creation device, which are capable of calculating a feature amount accurately representing a chemical property of a target structure, and which are capable of efficiently screening a pharmaceutical candidate compound using the feature amount, and which are capable of efficiently creating a three-dimensional structure of the pharmaceutical candidate compound using the feature amount. The chemical properties of the target structures are expressed as a result of the interaction between the target structures and the probes around them, and therefore the similarity in the degree of aggregation of the probes between the target structures is a case indicating that the chemical properties of these target structures are similar. Therefore, according to the feature amount calculation method of one aspect of the present invention, it is possible to calculate the feature amount accurately representing the chemical property of the target structure.)

特征量计算方法、特征量计算程序及特征量计算装置、筛选方 法、筛选程序及筛选装置、化合物创建方法、化合物创建程序 及化合物创建装置

技术领域

本发明涉及一种进行特征量的计算、化合物的筛选及化合物的立体结构的创建的方法、程序及装置,尤其涉及一种搜索医药候选化合物的技术。

背景技术

以往,使用了计算机的药物研发中,通过准备收集数万到十万左右的现有的化合物而成的库且提供化合物的结构式来调查相对于1个目标蛋白质的键合力,搜索医药候选化合物(以下,称为“命中(hit)”)。例如,在下述专利文献1中,提供化合物的结构式来预测键合力。并且,在专利文献2中,也记载有反复进行结构式的生成和键合力的预测来逐渐搜索具有所期望的键合力的化合物(反复试验)。

并且,在专利文献3中,记载有使用被称为“化合物指纹(指纹识别)”的描述符来进行搜索。“描述符”是指由化合物的结构式获得的信息,“化合物指纹”表示各种官能团的有无等信息。这种描述符的特征在于“若化合物的描述符相似,则化合物的骨架相似”。

以往技术文献

专利文献

专利文献1:美国专利第9373059号公报

专利文献2:日本专利第5946045号公报

专利文献3:日本专利第4564097号公报

发明内容

发明要解决的技术课题

近年来,需求高的目标蛋白质变得较复杂且高难度,仅通过库的筛选难以发现命中。另一方面,化合物的理论上的数量即使限制在分子量500以下的低分子也有(10的60次方)个,当扩大至分子量1,000左右的中分子时,其数量进一步增加,若考虑有史以来所合成的化合物为(10的9次方)个左右,则仍然有可能发现命中。但是,针对这种天文数字量的化合物整体调查键合力,不仅在实验中,即使在模拟中也几乎无法进行。即使在针对一部分的化合物调查键合力的情况下,如上述专利文献1、2那样反复进行反复试验时效率也低。并且,在如专利文献3中所记载的指纹(Fingerprint)那样的现有的描述符(特征量)的情况下,即使为显示出相同药效的化合物,其特征量也并不一定相似,特征量未准确表示对象结构体的化学性质,因此使用了特征量的搜索的效率低。

如此,现有的技术中,特征量未准确表示对象结构体的化学性质,因此使用了特征量的筛选及立体结构创建的效率低。

本发明是鉴于这种情况而完成的,其目的在于,提供一种能够计算出准确表示对象结构体的化学性质的特征量的特征量计算方法、特征量计算程序及特征量计算装置。并且,本发明的目的在于提供一种能够使用特征量来有效进行医药候选化合物的筛选的筛选方法、筛选程序及筛选装置。并且,本发明的目的在于提供一种能够使用特征量来有效创建医药候选化合物的立体结构的化合物创建方法、化合物创建程序及化合物创建装置。

用于解决技术课题的手段

为了达到上述目的,本发明的第1方式所涉及的特征量计算方法具有:对象结构体指定工序,指定由具有化学性质的多个单元结构体构成的对象结构体;立体结构生成工序,针对对象结构体生成基于多个单元结构体的立体结构;及特征量计算工序,计算出在三维空间中对立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,不变量化工序,使特征量针对对象结构体的旋转及平移不变量化来计算出不变量化特征量,其中,探针为具有实数电荷且产生范德华力的单个点。

对象结构体的化学性质被表示为对象结构体与其周围的1种类以上的探针之间的相互作用的结果,因此在对象结构体彼此之间探针的聚集程度相似是表示这些对象结构体的化学性质相似的情况。即,通过第1方式计算出的特征量相似的对象结构体显示出相似的化学性质。因此,通过第1方式,能够计算出准确表示对象结构体的化学性质的特征量。并且,在第1方式中,使特征量针对化合物的旋转及平移不变量化,因此容易处理特征量并且能够减小数据容量。关于特征量的不变量化,能够通过傅里叶变换、相关函数的角度积分等来进行。

在第1方式中,探针(“单个点”)与数学“点”不同而可以具有大小(实际的单原子、单原子离子等)。并且,可以将虚拟的点电荷(“点”的一方式)作为探针而不是实际的单原子等。探针能够按照成为目标(对象结构体)的化合物进行选择。

关于第2方式所涉及的特征量计算方法,在第1方式中,在对象结构体指定工序中,指定化合物作为对象结构体,在立体结构生成工序中,生成基于多个原子的化合物的立体结构,在特征量计算工序中,计算出在三维空间中对探针的如下聚集程度进行定量化而获得的特征量即第1特征量,所述聚集程度为在立体结构生成工序中所生成的化合物的立体结构的周围的探针的聚集程度,且为将1种类以上的单原子离子作为探针的聚集程度,在不变量化工序中,使第1特征量针对化合物的旋转及平移不变量化来计算出第1不变量化特征量。

在本发明中,作为医药的目标,能够使用作为除了蛋白质以外的生物高分子(化合物)的DNA(Deoxyribonucleic Acid:脱氧核糖核酸)、RNA(Ribonucleic Acid:核糖核酸)、细胞膜及多糖。第2方式规定针对这些目标化合物的特征量的计算方法,并且探针为1种类以上的单原子离子。从局部来看,化合物的药效(对于DNA等目标的键合力)被表示为化合物与探针之间的相互作用的结果,因此只要在化合物之间单原子离子(探针)的聚集程度为相似,则表示这些化合物与目标的键合力相似。即,第1不变量化特征量相似的化合物显示出相似的药效。因此,能够通过第2方式计算出准确表示化合物的化学性质的特征量。

关于第3方式所涉及的特征量计算方法,在第2方式中,在特征量计算工序中,针对1种类以上的单原子离子即第1探针和作为1种类以上的单原子离子的与第1探针不同的第2探针计算出第1特征量,在不变量化工序中,使用针对第1探针的第1特征量和针对第2探针的第1特征量来计算出第1不变量化特征量。

根据第3方式,能够在第1不变量化特征量的计算中,通过使用针对2种类不同的探针(第1、第2探针)的第1特征量来在维持探针的相互作用的信息的同时进行不变量化,因此能够正确进行基于特征量(第1不变量化特征量)的化合物的比较(药效判定)。另外,在第3方式中,只要第1、第2探针的构成要件(1种类以上的单原子离子)的种类、数量、组合中的至少1个不同,则相当于“第2探针与第1探针不同”。

关于第4方式所涉及的特征量计算方法,在第1方式中,在对象结构体指定工序中,指定化合物作为对象结构体,在立体结构生成工序中,生成基于多个原子的化合物的立体结构,在特征量计算工序中,计算出在三维空间中对探针的如下聚集程度进行定量化而获得的特征量即第2特征量,所述聚集程度为在立体结构生成工序中所生成的化合物的立体结构的周围的探针的聚集程度,且为将电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷及零电荷的第5点电荷中的1个以上作为探针的聚集程度,在不变量化工序中,使第2特征量针对化合物的旋转及平移不变量化来计算出第2不变量化特征量。另外,在第4方式中,作为对象结构体的化合物也可以为生物高分子。

第4方式规定针对虚拟(virtual)的探针的特征量计算方法,但是与第2方式相同地,第4方式所涉及的特征量相似的化合物显示出相似的药效。因此,即使在使用虚拟的探针的情况下,也能够计算出准确表示对象结构体的化学性质的特征量。

关于第5方式所涉及的特征量计算方法,在第4方式中,在特征量计算工序中,针对由第1点电荷、第2点电荷、第3点电荷、第4点电荷及第5点电荷中的1个以上构成的第1探针和由第1点电荷、第2点电荷、第3点电荷、第4点电荷及第5点电荷中的1个以上构成且与第1探针不同的第2探针计算出第2特征量,在不变量化工序中,使用针对第1探针的第2特征量和针对第2探针的第2特征量来计算出第2不变量化特征量。

根据第5方式,能够在第2不变量化特征量的计算中,通过使用针对2种类不同的探针(第1、第2探针)的第2特征量来在维持探针的相互作用的信息的同时进行不变量化,因此能够正确进行基于特征量(第2不变量化特征量)的化合物的比较(药效判定)。另外,在第5方式中,只要第1、第2探针的构成要件(第1点电荷等)的种类、数量、组合中的至少1个不同,则相当于“第2探针与第1探针不同”。

关于第6方式所涉及的特征量计算方法,在第5方式中,在对象结构体指定工序中,指定化合物作为对象结构体,在立体结构生成工序中,生成基于多个原子的化合物的立体结构,在特征量计算工序中,计算出在三维空间中对探针的如下聚集程度进行定量化而获得的特征量即第3特征量,所述聚集程度为在立体结构生成工序中所生成的化合物的立体结构的周围的探针的聚集程度,且为将1种类以上的单原子离子即第1探针和电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷及零电荷的第5点电荷中的1个以上即第2探针作为探针的聚集程度,在不变量化工序中,使用针对第1探针的第3特征量和针对第2探针的第3特征量来计算出第3不变量化特征量。

关于第7方式所涉及的特征量计算方法,在第6方式中,在特征量计算工序中,针对第1探针和第2探针中的至少一个不同的2种类的探针计算出第3特征量,并在不变量化工序中,使用针对2种类的探针的第3特征量来计算出第3不变量化特征量。

根据第7方式,能够在第3不变量化特征量的计算中,通过使用针对2种类不同的探针的第3特征量来在维持探针的相互作用的信息的同时进行不变量化,因此能够正确进行基于特征量(第3不变量化特征量)的化合物的比较(药效判定)。另外,在第7方式中,“第1探针和第2探针中的至少一个不同的2种类的探针”包括如下情况,即,在为由第1探针和第2探针构成的探针且第1探针和第2探针的组合不同的2种类的探针中,如一个探针由钠离子(单原子离子;第1探针的一例)及第1点电荷(第2探针的一例)构成而另一个探针由钠离子(单原子离子;第1探针的一例)及第2点电荷(第2探针的另一例)构成的这种“第1探针为相同而第2探针为不同”的情况、如一个探针由钠离子(单原子离子;第1探针的一例)及第1点电荷(第2探针的一例)构成而另一个探针由钙离子(单原子离子;第1探针的另一例)及第1点电荷(第2探针的一例)构成的这种“第1探针为不同而第2探针为相同”的情况、如一个探针由钠离子(单原子离子;第1探针的一例)及第1点电荷(第2探针的一例)构成而另一个探针由钙离子(单原子离子;第1探针的另一例)及第2点电荷(第2探针的另一例)构成的这种“第1、第2探针的双方均不同”的情况。其中,只要探针的构成要件的种类、数量、组合中的至少1个不同,则相当于“一探针与另一探针不同”。

为了达到上述目的,本发明的第8方式所涉及的特征量计算程序使计算机执行第1至第7方式中的任一个所涉及的特征量计算方法。关于第8方式中的“计算机”,能够使用1个以上的CPU(Central Processing Unit:中央处理器)等各种处理器来实现。另外,也能够举出记录有第8方式所涉及的特征量计算程序的计算机能够读取的代码的非临时性记录介质来作为本发明的方式。

为了达到上述目的,本发明的第9方式所涉及的特征量计算装置具备:对象结构体指定部,指定由具有化学性质的多个单元结构体构成的对象结构体;立体结构生成部,针对对象结构体生成基于多个单元结构体的立体结构;及特征量计算部,计算出在三维空间中对立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,不变量化部,使特征量针对对象结构体的旋转及平移不变量化来计算出不变量化特征量,其中,探针为具有实数电荷且产生范德华力的单个点。

在第9方式中,如第1至第8方式的上述内容,能够将目标化合物作为DNA等且将探针作为单原子离子、虚拟电荷及其组合来计算出第1~第3特征量及第1~第3不变量化特征量。

为了达到上述目的,本发明的第10方式所涉及的筛选方法从多个化合物中提取与除了蛋白质以外的目标生物高分子键合的目标化合物,所述筛选方法具有:存储工序,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与使用第2方式所涉及的特征量计算方法计算出的针对化合物的立体结构的第1不变量化特征量建立关联并进行存储;特征量计算工序,针对确认到与除了蛋白质以外的目标生物高分子键合的化合物即键合化合物计算出第1不变量化特征量;相似度计算工序,计算出针对多个化合物的第1不变量化特征量与针对键合化合物的第1不变量化特征量的相似度;及化合物提取工序,根据相似度从多个化合物中提取目标化合物。

如第2方式的上述内容,本发明能够使用作为除了蛋白质以外的目标生物高分子的DNA等,若与目标生物高分子键合的键合化合物和对象化合物的第1不变量化特征量相似,则两者的药效相似。因此,根据第10方式,根据第1不变量化特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。另外,在化合物提取工序中,可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。

为了达到上述目的,本发明的第11方式所涉及的筛选方法从多个化合物中提取与目标生物高分子键合的目标化合物,所述筛选方法具有:存储工序,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与使用第4方式所涉及的特征量计算方法计算出的针对化合物的立体结构的第2不变量化特征量建立关联并进行存储;特征量计算工序,针对确认到与目标生物高分子的键合的化合物即键合化合物计算出第2不变量化特征量;相似度计算工序,计算出针对多个化合物的第2不变量化特征量与针对键合化合物的第2不变量化特征量的相似度;及化合物提取工序,根据相似度从多个化合物中提取目标化合物。

如第4方式的上述内容,第2不变量化特征量相似的化合物显示出相似的药效。因此,根据第11方式,即使在使用虚拟的探针(点电荷等)的情况下,也根据第2不变量化特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。另外,在化合物提取工序中,可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。

为了达到上述目的,本发明的第12方式所涉及的筛选程序使计算机执行第10或第11方式所涉及的筛选方法。关于第12方式中的“计算机”,能够使用1个以上的CPU(CentralProcessing Unit)等各种处理器来实现。另外,也能够举出记录有第12方式所涉及的筛选程序的计算机能够读取的代码的非临时性记录介质来作为本发明的方式。

为了达到上述目的,本发明的第13方式所涉及的筛选装置从多个化合物中提取与除了蛋白质以外的目标生物高分子键合的目标化合物,所述筛选装置具备:存储部,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与使用第2方式所涉及的特征量计算方法计算出的针对化合物的立体结构的第1不变量化特征量建立关联并进行存储;特征量计算部,针对确认到与除了蛋白质以外的目标生物高分子键合的化合物即键合化合物计算出第1不变量化特征量;相似度计算部,计算出针对多个化合物的第1不变量化特征量与针对键合化合物的第1不变量化特征量的相似度;及化合物提取部,根据相似度从多个化合物中提取目标化合物。

如第2方式的上述内容,若除了蛋白质以外的目标生物高分子和对象化合物的第1不变量化特征量相似,则两者的药效相似。因此,根据第13方式,根据第1不变量化特征量提取与除了蛋白质以外的目标生物高分子的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。另外,在化合物提取部中,可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。

为了达到上述目的,本发明的第14方式所涉及的筛选装置从多个化合物中提取与目标生物高分子键合的目标化合物,所述筛选装置具备:存储部,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与使用第4方式所涉及的特征量计算方法计算出的针对化合物的立体结构的第2不变量化特征量建立关联并进行存储;特征量计算部,针对确认到与目标生物高分子的键合的化合物即键合化合物计算出第2不变量化特征量;相似度计算部,计算出针对多个化合物的第2不变量化特征量与针对键合化合物的第2不变量化特征量的相似度;及化合物提取部,根据相似度从多个化合物中提取目标化合物。

如第4方式的上述内容,第2不变量化特征量相似的化合物显示出相似的药效。因此,根据第14方式,即使在使用虚拟的探针的情况下,也根据第2不变量化特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。另外,在化合物提取部中,可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。

为了达到上述目的,本发明的第15方式所涉及的化合物创建方法从多个化合物创建与除了蛋白质以外的目标生物高分子键合的目标化合物的立体结构,所述化合物创建方法具有:存储工序,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与第1不变量化特征量建立关联并进行存储;特征量计算工序,使用第2方式所涉及的特征量计算方法针对确认到与除了蛋白质以外的目标生物高分子的键合的化合物即键合化合物计算出第1不变量化特征量;生成器构建工序,通过将多个化合物的立体结构设为教师数据且将第1不变量化特征量设为解释变量的机器学习来构建生成器;及化合物立体结构生成工序,使用生成器从键合化合物的第1不变量化特征量来生成目标化合物的立体结构。

上述第10至第11方式所涉及的筛选方法中,从结构式已确定(已被写下)的多个化合物中发现与除了蛋白质以外的目标生物高分子匹配的化合物。因此,采用在计算出化合物的特征量之后,根据另外计算出的与目标生物高分子的特征量的相似度提取化合物的方法即检索的方法。因此,只要预先记录化合物的结构式与特征量的对应关系,则能够发现相似度高的(或阈值以上的)结构式。相对于此,在第15方式中,生成具有与目标生物高分子的特征量(第1不变量化特征量)相似的(因此,药效相似的)特征量的化合物的结构式而不进行检索。

关于在提供特征量的情况下的结构式的生成,能够使用通过机器学习构建的生成器来进行。具体而言,在第15方式中,通过将化合物的立体结构设为教师数据且将第1不变量化特征量设为解释变量的机器学习(学习方法并无特别限定)构建生成器,并使用该生成器,从目标生物高分子的第1不变量化特征量来生成目标化合物的立体结构。在第15方式中,由于不进行检索,因此即使在成为“基于筛选的检索的结果为无解”的情况下也能够生成化合物的立体结构,从而能够有效创建医药候选化合物的立体结构。

另外,在第15方式中所生成的立体结构受到作为教师数据所提供的化合物的特征的影响。因此,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。例如,通过提供容易合成的化合物作为教师数据,能够生成具有容易合成的立体结构的化合物。

为了达到上述目的,本发明的第16方式所涉及的化合物创建方法从多个化合物创建与目标生物高分子键合的目标化合物的立体结构,所述化合物创建方法具有:存储工序,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与第2不变量化特征量建立关联并进行存储;特征量计算工序,使用第4方式所涉及的特征量计算方法针对确认到与目标生物高分子的键合的化合物即键合化合物计算出第2不变量化特征量;生成器构建工序,通过将多个化合物的立体结构设为教师数据且将第2不变量化特征量设为解释变量的机器学习来构建生成器;及化合物立体结构生成工序,使用生成器从键合化合物的第2不变量化特征量来生成目标化合物的立体结构。

根据第16方式,与第15方式相同地,生成具有与键合化合物的特征量(第2不变量化特征量)相似的(因此,药效相似的)特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。另外,与第15方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。

为了达到上述目的,本发明的第17方式所涉及的化合物创建程序使计算机执行第15或第16方式所涉及的化合物创建方法。关于第17方式中的“计算机”,能够使用1个以上的CPU(Central Processing Unit)等各种处理器来实现。另外,也能够举出记录有第17方式所涉及的化合物创建程序中计算机能够读取的代码的非临时性记录介质来作为本发明的方式。

为了达到上述目的,本发明的第18方式所涉及的化合物创建装置从多个化合物创建与除了蛋白质以外的目标生物高分子键合的目标化合物的立体结构,所述化合物创建装置具有:存储部,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与第1不变量化特征量建立关联并进行存储;特征量计算部,使用第2方式所涉及的特征量计算方法针对确认到与除了蛋白质以外的目标生物高分子的键合的化合物即键合化合物计算出第1不变量化特征量;生成器构建部,通过将多个化合物的立体结构设为教师数据且将第1不变量化特征量设为解释变量的机器学习来构建生成器;及化合物立体结构生成部,使用生成器从键合化合物的第1不变量化特征量来生成目标化合物的立体结构。

根据第18方式,与第15或第16方式相同地,生成具有与键合化合物的特征量(第1不变量化特征量)相似的(因此,药效相似的)特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。另外,与第15或第16方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。

为了达到上述目的,本发明的第19方式所涉及的化合物创建装置从多个化合物创建与目标生物高分子键合的目标化合物的立体结构,所述化合物创建装置具备:存储部,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与第2不变量化特征量建立关联并进行存储;特征量计算部,使用第4方式所涉及的特征量计算方法针对确认到与目标生物高分子的键合的化合物即键合化合物计算出第2不变量化特征量;生成器构建部,通过将多个化合物的立体结构设为教师数据且将第2不变量化特征量设为解释变量的机器学习来构建生成器;及化合物立体结构生成部,使用生成器从键合化合物的第2不变量化特征量来生成目标化合物的立体结构。

根据第19方式,与第15或第16方式相同地,生成具有与键合化合物的特征量(第2不变量化特征量)相似的(因此,药效相似的)特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。另外,与第15或第16方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。

发明效果

如上所述,根据本发明的特征量计算方法、特征量计算程序及特征量计算装置,能够计算出准确表示对象结构体的化学性质的特征量。并且,根据本发明的筛选方法、筛选程序及筛选装置,能够有效进行医药候选化合物的筛选。并且,根据本发明的化合物创建方法、化合物创建程序及化合物创建装置,能够有效创建医药候选化合物的立体结构。

附图说明

图1是表示第1实施方式所涉及的筛选装置的结构的框图。

图2是表示处理部的结构的框图。

图3是表示存储于存储部的信息的图。

图4是表示将化合物的结构信息与特征量建立关联而进行存储的状态的图。

图5是表示化合物的三维AAM特征量的计算步骤的流程图。

图6是表示结构式的三维化的例的图。

图7是表示三维AAM特征量的例的图。

图8是表示三维AAM特征量的例的表。

图9是表示针对口袋结构体的三维AAM描述符的步骤的流程图。

图10是表示针对口袋结构体的三维AAM描述符的状态的概念图。

图11是表示不变量化AAM描述符的例的图。

图12是表示不变量化AAM描述符相似的化合物的例的图。

图13是表示在使用了不变量化AAM描述符的情况下的命中的发现容易度的图。

图14是表示在使用了不变量化AAM描述符的情况下的命中的搜索时间的图。

图15是表示在使用了不变量化AAM描述符的情况下的命中的搜索时间的另一图。

图16是表示基于描述符的相似度的目标化合物的提取步骤的图。

图17是表示基于描述符的相似度的目标化合物的提取结果的例的表。

图18是表示基于描述符的相似度的目标化合物的提取步骤的另一图。

图19是表示基于描述符的相似度的目标化合物的提取结果的例的另一表。

图20是表示第2实施方式所涉及的化合物创建装置的结构的框图。

图21是表示处理部的结构的图。

图22是表示存储于存储部的信息的图。

图23是表示在输入配体的情况下的立体结构生成步骤的流程图。

图24是表示使用了机器学习的结果的立体结构生成的状态的图。

图25是表示中间层的数量与cos相似度的关系的图。

图26是表示立体结构的生成例的图。

图27是表示在输入目标蛋白质的情况下的立体结构生成步骤的图。

图28是表示第3实施方式所涉及的医药候选化合物搜索装置的结构的框图。

图29是表示处理部的结构的图。

图30是表示存储于存储部的信息的图。

图31是表示命中的发现容易度的比较结果的图。

图32是表示命中的发现容易度的比较结果的另一图。

图33是表示命中的发现容易度的比较结果的另一图。

图34是表示层次网络的结构例的图。

图35是表示层次网络的结构例的另一图。

具体实施方式

以下,参考附图并对本发明的特征量计算方法、筛选装置及化合物创建装置的实施方式进行详细说明。

<第1实施方式>

图1是表示第1实施方式所涉及的筛选装置10(特征量计算装置、筛选装置)的结构的框图。筛选装置10为进行针对化合物(对象结构体)和/或口袋结构体(对象结构体)的特征量的计算及目标化合物的提取(筛选)的装置,并能够使用计算机来实现。如图1所示,筛选装置10具备处理部100、存储部200、显示部300及操作部400,并且相互连接而收发所需信息。针对这些构成要件能够采用各种设置方式,各构成要件可以设置于1处(1框体内、1室内等),也可以设置于隔开的位置而经由网络连接。并且,筛选装置10经由互联网等网络NW与外部服务器500及PDB(Protein Data Bank:大型数据库)等外部数据库510连接,并能够根据需要获取化合物的结构式、蛋白质的晶体结构等信息。

<处理部的结构>

图2是表示处理部100的结构的图。处理部100具备信息输入部110、特征量计算部120、相似度计算部130、化合物提取部140、显示控制部150、CPU160(CPU:CentralProcessing Unit)、ROM170(ROM:Read Only Memory:只读存储器)及RAM180(RAM:RandomAccess Memory:随机存取存储器)。

信息输入部110经由未图示的DVD驱动器、半导体存储器用端子等记录介质接口和/或网络NW输入化合物的结构式、目标蛋白质的X晶体结构及口袋位置等信息。特征量计算部120(对象结构体指定部、立体结构生成部、特征量计算部、不变量化部)计算出本发明所涉及的特征量(第1特征量、第1不变量化特征量、第2特征量、第2不变量化特征量、第3特征量、第3不变量化特征量)。相似度计算部130(相似度计算部)计算出所计算的特征量彼此的相似度。化合物提取部140(化合物提取部)从多个化合物根据相似度提取目标化合物。显示控制部150控制所输入的信息及处理结果在显示器310上的显示。对使用了处理部100的这些功能的特征量计算及目标化合物的筛选的处理的详细内容将进行后述。另外,基于这些功能的处理在CPU160的控制下进行。

上述处理部100的各部的功能能够使用各种处理器(processor)来实现。在各种处理器中,例如包含有CPU,所述CPU为执行软件(程序)来实现各种功能的通用的处理器。并且,在上述各种处理器中,还包含有作为专门用于图像处理的处理器的GPU(GraphicsProcessing Unit:图形处理单元)、作为FPGA(Field Programmable Gate Array:现场可编程门阵列)等在制造后能够变更电路结构的处理器的可编程逻辑设备(ProgrammableLogic Device:PLD)。而且,作为ASIC(Application Specific Integrated Circuit:专用集成电路)等具有为了执行特定的处理而专门设计的电路结构的处理器的专用电路等也包含于上述各种处理器中。

各部的功能可以通过1个处理器来实现,也可以由相同种类或不同种类的多个处理器(例如,多个FPGA或CPU和FPGA的组合或CPU和GPU的组合)来实现。并且,可以由1个处理器实现多个功能。作为由1个处理器构成多个功能的例,第1有如下方式,即,如以客户端、服务器等计算机为代表,由1个以上的CPU和软件的组合构成1个处理器,并通过该处理器实现多个功能。第2有如下方式,即,如以片上系统(System On Chip:SoC)等为代表,使用由1个IC(Integrated Circuit:集成电路)芯片实现系统整体的功能的处理器。如此,使用1个以上的上述各种处理器来作为硬件结构来构成各种功能。而且,更具体而言,这些各种处理器的硬件结构为组合了半导体元件等电路元件的电路(circuitry)。

在上述处理器或电路执行软件(程序)时,将欲执行的软件的计算机(例如,构成处理部100的各种处理器或电路和/或它们的组合)能够读取的代码预先存储于ROM170(参考图2)等非临时性记录介质中,从而处理器参考该软件。预先存储于非临时性记录介质的软件包含用于执行本发明所涉及的特征量计算方法及目标化合物的提取处理的程序(特征量计算程序及筛选程序)。也可以在各种光磁记录装置、半导体存储器等的非临时性记录介质中记录代码而不是在ROM170中。在进行使用了软件的处理时,例如将RAM180用作临时存储区域,并且也能够参考例如存储于未图示的EEPROM(Electronically Erasable andProgrammable Read Only Memory:电子可擦和可编程只读存储器)中的数据。

<存储部的结构>

存储部200由DVD(Digital Versatile Disk:数字通用光盘)、硬盘(Hard Disk)、各种半导体存储器等非临时性记录介质及其控制部构成,且存储有图3所示的图像及信息。结构信息210包含化合物的结构式、目标蛋白质的立体结构及口袋位置。立体结构信息220为从结构信息210生成的化合物和/或口袋结构体的立体结构的信息。三维AAM描述符230为在三维空间中对化合物或口袋结构体的立体结构的周围的1种类以上的氨基酸的聚集程度进行定量化而获得的特征量,并通过后述的特征量计算方法计算出。另外,“AAM”是指“氨基酸图谱(Amino Acid Mapping)”。不变量化AAM描述符240为使三维AAM描述符230针对化合物或口袋结构体的旋转及平移不变量化的特征量。相似度信息250为表示特征量彼此的相似度的信息,化合物提取结果260为表示根据相似度所提取的目标化合物的信息。

图4为表示使针对N个(N为2以上的整数)化合物的结构信息210、立体结构信息220、三维AAM描述符230及不变量化AAM描述符240建立关联而被存储于存储部200的状态的图。在图4中,例如能够将结构式设为结构信息210,并将被立体化的结构式(后述)设为立体结构信息220。并且,图4中,对于各化合物,针对20种类的氨基酸的每一个,将三维AAM描述符230(记载为“ga(r)”;a是表示氨基酸的种类的下标)与对应于其三维AAM描述符230的不变量化AAM描述符240(记载为“Fab(s)”;a、b是表示氨基酸的种类的下标)建立关联并进行存储。关于三维AAM描述符230及不变量化AAM描述符240,可以按照用于筛选的描述符的数量来针对一部分的氨基酸进行存储而不是针对20种类的氨基酸整体。

在存储部200中,可以存储多个如图4所示那样的信息的组(库)。另外,图4中示出了针对化合物的信息的存储状态,但是针对目标蛋白质也能够以相同的结构存储信息。并且,对使用了这种结构信息及立体结构信息的三维AAM描述符和/或不变量化AAM描述符的计算方法将进行后述。

<显示部及操作部的结构>

显示部300具备显示器310(表示装置),并能够显示所输入的图像、存储于存储部200的图像及信息、基于处理部100的处理的结果等。操作部400包括作为输入设备和/或定点设备的键盘410及鼠标420,用户能够经由这些设备及显示器310的画面进行本发明所涉及的特征量计算方法的执行及目标化合物的提取中所需的操作(后述)。用户能够执行的操作中例如包含有处理模式、欲计算的描述符的种类、用于筛选的描述符、对于相似度的阈值的指定等。

<筛选装置中的处理>

上述结构的筛选装置10中,能够按照用户经由操作部400进行的指示进行特征量(描述符)的计算和/或目标化合物的提取。以下,对各处理的详细内容进行说明。

<特征量的计算>

筛选装置10能够按照用户经由操作部400进行的指示计算出三维AAM描述符和/或不变量化AAM描述符。

<对于化合物的三维AAM描述符的计算>

图5是表示针对化合物(对象结构体)的三维AAM描述符的计算步骤的流程图。另外,配体为确认到与目标蛋白质的键合的化合物,能够以图5的步骤计算出三维AAM描述符。步骤S100中,信息输入部110按照用户的操作输入化合物的结构式。由此,由所输入的化学式表示的化合物被指定为对象结构体(对象结构体指定工序)。

特征量计算部120对所输入的结构式进行三维化,从而生成基于多个原子(具有化学性质的多个单元结构体)的化合物的立体结构(步骤S102:立体结构生成工序)。结构式的三维化已知有各种方法,步骤S102中所使用的方法并无特别限定。图6表示结构式的立体化的例,图6(a)部分表示所输入的结构式,图6(b)部分表示被三维化的结构式。

特征量计算部120计算出氨基酸“a”(a为表示氨基酸的种类的数字;1至20)的各原子“μ”所感受到的自由能的空间分布ΔG(r)(步骤S104;特征量计算工序)。作为ΔG(r)的计算方法能够采用分子动力学方法(MD:Molecular Dynamics),但是并不限定于此。计算出特征量的氨基酸可以为预定的种类,也可以按照用户的指示来确定(只要为1种类以上即可,也可以为多个种类)。

特征量计算部120根据ΔG(r)计算出氨基酸“a”的各原子“μ”的分布函数g(r)(步骤S106:特征量计算工序)。若将T设为室温且将KB设为玻尔兹曼常数,则g(r)由以下式(1)表示。

[数式1]

g(r)=exp(-ΔG(r)/KBT)…(1)

特征量计算部120根据分布函数g(r)计算出氨基酸的重心的分布函数ga(r)(步骤S108:特征量计算工序)。为了计算,将g(r)对各原子“μ”进行几何平均。该分布函数ga(r)为在三维空间中对化合物的立体结构的周围的1种类以上的氨基酸“a”的聚集程度进行定量化而获得的三维AAM描述符。特征量计算部120将所计算的三维AAM描述符作为三维AAM描述符230与化合物的结构信息(结构信息210)、立体结构信息(立体结构信息220)建立关联并存储于存储部200(参考图4)。

图7是针对图6所示的化合物的三维AAM描述符的例。图7(a)部分表示针对丙氨酸的三维AAM描述符,图7(b)部分表示针对缬氨酸的三维AAM描述符。在图7中,颜色深的区域为氨基酸的聚集程度(存在几率)高的区域。图8是表示针对图6所示的化合物的三维AAM描述符的另一例的表,且表示针对分别不同的方向1、方向2、方向3(分别为表的第1段、第2段、第3段)的三维AAM描述符。表的左栏表示三维AAM描述符(相对于阈值的等高面),右栏表示三维AAM描述符(相对于阈值的等高面)及化合物的立体结构。

<对于口袋结构体的三维AAM描述符的计算>

筛选装置10中,能够作为对象结构体指定与目标蛋白质键合的口袋结构体而不是化合物,并计算出对于该口袋结构体的特征量(三维AAM描述符)。口袋结构体为与目标蛋白质的活性部位即口袋键合的对象结构体,“活性部位”是指通过键合口袋结构体而促进或抑制目标蛋白质的活性的部位。图9是表示对于口袋结构体的三维AAM描述符的计算步骤的流程图。并且,图10是表示对于口袋结构体的三维AAM描述符的状态的概念图。

图9的流程图中,信息输入部110输入目标蛋白质的立体结构的实际测量及口袋的位置信息(步骤S200:对象结构体指定工序)。图10中的图10(a)部分表示目标蛋白质TP中的口袋PO。通过步骤S200的处理,口袋结构体被指定为对象结构。

特征量计算部120在目标蛋白质的口袋上塞入多个虚拟球体(具有化学性质的多个单元结构体)(步骤S202:对象结构体指定工序、立体结构生成工序)。能够认为“虚拟球体”具有范德华半径、电荷等化学性质,“塞入虚拟球体”能够通过模拟(例如分子动力学方法)来进行。通过步骤S202,能够将所塞入的虚拟球体的集合(立体结构)作为口袋结构体(对象结构体)的立体结构而获得(步骤S204:立体结构生成工序)。图10中的图10(b)部分表示对于目标蛋白质TP的口袋结构体PS的例。

特征量计算部120使用目标蛋白质的立体结构的实际测量,以三维的方式对在口袋结构体的周围的1种类以上的氨基酸的聚集程度进行定量化(步骤S206:特征量计算工序)。实际上,能够读出在口袋结构体的周围聚集有哪一种类的氨基酸。图10中的图10(c)部分表示在口袋结构体PS的周围聚集有3种类的氨基酸A1、A2、A3的状态。另外,对聚集程度进行定量化的氨基酸只要为1种类以上即可(也可以为多个种类)。并且,可以针对所预定的种类的氨基酸进行定量化,也可以针对按照用户的操作所设定的氨基酸进行定量化。特征量计算部120将所计算的三维AAM描述符作为三维AAM描述符230与化合物的结构信息(结构信息210)、立体结构信息(立体结构信息220)建立关联并存储于存储部200(参考图3、图4;存储工序)。在已计算出后述的不变量化AAM描述符的情况下,特征量计算部120将三维AAM描述符与不变量化AAM描述符建立关联。

<三维AAM描述符的不变量化>

上述三维AAM描述符表示氨基酸的三维的聚集程度,但是即使化合物相同若进行重心移动、旋转等则值会改变,并且由于是三维信息,因此数据容量大。因此,第1实施方式所涉及的筛选装置10中,除了三维AAM描述符以外能够计算出“使三维AAM描述符对于化合物的旋转及平移不变量化的不变量化AAM描述符”或代替三维AAM描述符能够计算出“使三维AAM描述符针对化合物的旋转及平移不变量化的不变量化AAM描述符”(不变量化特征量)。另外,不管是化合物的情况,还是口袋结构体的情况,均能够以相同步骤进行不变量化。在使用了针对化合物的三维AAM描述符的情况下,可以获得针对化合物的不变量化AAM描述符,在使用了针对口袋结构体的三维AAM描述符的情况下,可以获得针对口袋结构体的不变量化AAM描述符。

特征量计算部120(不变量化部)如以下式(2)所示那样,使用傅里叶变换计算出fa(k)(不变量化工序)。如上述,“a”是表示氨基酸的种类的下标(1~20)。并且,“i”是虚数单位。

[数式2]

fa(k)=∫d3r(ga(r)-1)eikr…(2)

特征量计算部120能够使用该fa(k)并通过以下式(3)计算出作为不变量化AAM描述符的Fab(s)(不变量化特征量)(不变量化工序)。式(3)中,使用针对2种类不同的氨基酸(由“a”、“b”表示)的三维AAM描述符(ga(r)、gb(r)),通过相关函数的角度积分计算出不变量化AAM描述符。另外,用于计算20种类的氨基酸中的不变量化AAM描述符的2种类的氨基酸的组合并无特别限定。

[数式3]

Fab(s)=∫d3kfa(-k)fb(+k)δ(k2-s)…(3)

式(3)中,在进行不变量化时使用三角函数,但是如以下式(4)所示,能够使用任意函数(h(k2-s))进行不变量化。

[数式4]

Fab(s)=∫d3kfa(-k)fb(+k)h(k2-s)…(4)

将如此计算的不变量化AAM描述符的例示于图11中。图11中的图11(a)部分为作为不变量化AAM描述符的F12(s)(针对氨基酸1、氨基酸2的不变量化AAM描述符)的实部,图11(b)部分为虚部。如此,通过使用针对2种类不同的氨基酸的三维AAM描述符进行不变量化,能够在维持氨基酸的相互作用的信息的同时进行不变量化,并能够正确进行基于特征量(不变量化特征量)的化合物的比较(药效判定)。

特征量计算部120将所计算的不变量化AAM描述符作为不变量化AAM描述符240与化合物的结构信息(结构信息210)、立体结构信息(立体结构信息220)及原始的三维AAM描述符230建立关联并存储于存储部200(参考图3、图4;存储工序)。另外,第1实施方式中,使用针对2种类不同的氨基酸的三维AAM描述符计算出不变量化AAM描述符,因此也能够具有多个三维AAM描述符与不变量化AAM描述符的建立关联。

<不变量化AAM描述符的有效性评价>

对通过上述的处理计算出的不变量化AAM描述符的有效性进行说明。

<具有相似的不变量化AAM描述符的化合物的活性的例>

图12中的图12(a)部分表示对于蛋白质ABL1(目标蛋白质的一例)的配体的结构式。该配体的键合力为IC50(50%抑制浓度)且为1μM级别。相对于此,图12中的图12(b)部分为具有与配体几乎相同的不变量化AAM描述符的化合物的结构式。若实际测量该化合物的活性,则与配体的级别相同。即,图11为表示不变量化AAM描述符相似的化合物具有相似的药效的例。如此,根据第1实施方式,能够获得准确表示对象结构体的化学性质的特征量(不变量化AAM描述符)。

<命中的发现容易度>

通过以下步骤1~5,对基于不变量化AAM描述符的命中的发现容易度进行了评价。

(步骤1)对于某一蛋白质(目标蛋白质),将X个命中化合物和Y个不是命中的化合物进行混合。

(步骤2)针对(X+Y)个化合物整体计算出不变量化AAM描述符。

(步骤3)计算出每一个描述符的相似度。

(步骤4)根据不变量化AAM描述符的相似度对(X+Y)个化合物进行分组。

(步骤5)检查是否机械生成命中所聚集的组。

通过上述步骤对相对于蛋白质ABL1(激酶)包含183个命中的10,933个化合物(命中含有率1.6%)进行分组,其结果,被分成221组。某一组包含16个命中和14个其他化合物,命中含有率为53.3%。并且该组包含图12中的图12(a)部分所示的化合物及图12(b)部分所示的化合物,但是在使用了作为以往的描述符的指纹的情况下,这些化合物的相似度为25%,本来是命中,却被识别为另一物质。如此,可知在上述组中,在使用了本发明的第1实施方式所涉及的不变量化AAM描述符的情况下,即使在指纹方式中未能够聚在一起的命中也属于同一组。

将针对上述221组求出每一组的命中的发现容易度(=期待值;命中数量×命中含有率)的结果示于图13中。为了比较,示出随机进行分组的情况及使用指纹进行分组的情况的结果。根据该结果,可知当对于上述的化合物群使用了不变量化AAM描述符时,生成比随机的分组或使用了指纹的分组包含更多的命中的组。另外,在图13中,组号码根据分组方法(随机、不变量化AAM描述符、指纹)而不同,因此分组的优劣是通过“是否包含有期待值高的(包含更多的命中的)组”来进行判断而不是通过比较相同组号码中的期待值来进行判断。

<命中搜索时间(其1)>

图14是表示针对上述化合物群的Importance Sampling(重点采样)的模拟结果的图表。当使用了第1实施方式所涉及的不变量化AAM描述符时,与随机进行分组的情况相比,命中搜索时间(用于发现相同的命中数量的药效评价的次数)在50%搜索的情况下被缩短为约2分之1,在25%搜索的情况下被缩短为约4分之1。另一方面,在使用了指纹的分组的情况下,命中搜索时间未缩短。另外,其中的Importance Sampling(重点采样)的模拟是指,按每一组提供表示优先级的变量,在每一次测定中,一边以将出现命中的组的优先级提高而将未出现命中的组的优先级降低的方式更新变量一边以更少的测定次数聚集更多的命中的方法。图14中示出了对优先级的控制使用了作为机器学习方法的一种的NB法(NB:NaiveBayes:朴素贝叶斯)的例,但是无需限定于此。

<命中搜索时间(其2)>

针对相对于蛋白质AA2AR的32,464个化合物(包含483个命中)与(其1)相同地将Importance Sampling(重点采样)的模拟结果示于图15中。蛋白质AA2AR为难以获得X射线晶体结构的膜蛋白,但是即使为这种膜蛋白的情况下,命中搜索时间以50%搜索时也缩短至约2分之1。

根据上述不变量化AAM描述符,描述符相似的化合物显示出相似的药效(对于目标蛋白质的键合),因此准确表示对象结构体(化合物、口袋结构体)的化学性质。根据对三维AAM描述符进行不变量化的不变量化AAM描述符,通过使用针对2种类不同的氨基酸的三维AAM描述符进行不变量化,正确进行基于描述符的化合物的比较(药效判定)的同时,容易处理特征量且能够减少数据容量。而且,根据不变量化AAM描述符,容易发现命中而能够加快搜索。

<特征量计算方法及特征量计算程序的效果>

如上所述,第1实施方式所涉及的筛选装置10中,使用本发明所涉及的特征量计算方法及特征量计算程序能够计算出准确表示对象结构体的化学性质的特征量(三维AAM描述符、不变量化AAM描述符)。

<目标化合物的提取(筛选)>

对使用了上述三维AAM描述符及不变量化AAM描述符的从多个化合物中的目标化合物(医药候选化合物)的提取进行说明。目标化合物的提取具有根据配体的描述符(三维AAM描述符、不变量化AAM描述符)进行提取的模式(第1模式)和根据目标蛋白质的口袋结构体的描述符(三维AAM描述符、不变量化AAM描述符)进行提取的模式(第2模式)。能够按照用户经由操作部400进行的操作来选择通过哪一个模式进行提取。

<配体输入的筛选>

图16是表示使用了配体的三维AAM描述符的筛选的步骤的流程图。若开始进行处理,则特征量计算部120计算出配体的三维AAM描述符(步骤S300:特征量计算工序)。另外,配体为确认到与目标蛋白质的键合的化合物,因此步骤S300中的三维AAM描述符的计算能够通过图5的流程图所示的步骤进行。

如图4的上述内容,在筛选装置10中,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与对应于该立体结构的三维AAM描述符建立关联并存储于存储部200。相似度计算部130计算出针对化合物的三维AAM描述符与在步骤S300中所计算的配体的三维AAM描述符的相似度(步骤S302:相似度计算工序)。在计算出相似度之后,化合物提取部140根据相似度提取目标化合物(步骤S304:目标化合物提取工序)。如上述,只要三维AAM描述符相似,则显示出相似的药效(对于目标蛋白质的键合),因此通过使用三维AAM描述符的相似度,能够提取具有与配体相似的药效的化合物(即,作为医药候选的目标化合物)。另外,具体而言,基于相似度的目标化合物的提取(步骤S304)能够通过“提取相似度为阈值以上的化合物”、“以相似度高到低的顺序提取化合物”等来进行。

图16中,对使用了三维AAM描述符的筛选的步骤进行了说明,但是也能够以相同的步骤进行使用了不变量化AAM描述符的筛选。具体而言,特征量计算部120通过图5的步骤及上述式(2)、上述式(3)计算出配体的不变量化AAM描述符(不变量化特征量),并由相似度计算部130计算出与存储于存储部200的化合物的不变量化AAM描述符的相似度。在计算出相似度之后,由化合物提取部140根据相似度提取目标化合物。基于相似度的目标化合物的提取的具体方式能够与三维AAM描述符相同地进行。

图17是表示配体输入的筛选结果的例的表。图17中的图17(a)部分表示设为使用三维AAM描述符“提取相似度为阈值以上的化合物”的情况的结果,图17(b)部分表示设为使用不变量化AAM描述符“以相似度高到低的顺序提取化合物”的情况的结果。另外,图17中的图17(a)部分中,根据针对氨基酸1的三维AAM描述符(g1(r))提取化合物,但是也可以根据针对其他氨基酸(氨基酸2~氨基酸20)的三维AAM描述符(例如,g2(r))提取化合物。并且,也可以分别计算出针对不同的氨基酸的多个三维AAM描述符(例如,g1(r)和g2(r))的相似度(g1(r)彼此的相似度和g2(r)彼此的相似度),并根据此提取化合物。用于化合物的提取的三维AAM描述符可以为1种类,但是通过使用多个种类的三维AAM描述符,能够正确进行基于相似度的化合物的提取。另外,在使用多个种类的三维AAM描述符的情况下,在这些描述符之间的氨基酸的组合并无特别限定(例如,可以为g1(r)和g2(r),也可以为g3(r)和g4(r))。

相同地,图17中的图17(b)部分中,根据针对氨基酸1、氨基酸2的不变量化AAM描述符(F12(s))提取化合物,但是进行不变量化AAM描述符的计算的氨基酸可以为其他组合(例如,基于氨基酸3、氨基酸4的F34(s))。并且,可以根据氨基酸的组合不同的多个不变量化AAM描述符(例如,F12(s)和F34(s))进行化合物的提取(例如,使用F12(s)彼此的相似度和F34(s)彼此的相似度)。用于化合物的提取的不变量化AAM描述符可以为1种类,但是通过使用多个种类的不变量化AAM描述符,能够正确进行基于相似度的化合物的提取。另外,在使用多个种类的不变量化AAM描述符的情况下,在这些描述符之间的氨基酸的组合并无特别限定(例如,可以为F12(s)和F34(s),也可以为F12(s)和F13(s))。关于针对哪一个氨基酸计算出描述符及相似度,可以按照用户经由操作部400进行的指示而由处理部100(特征量计算部120、相似度计算部130、化合物提取部140)进行确定,也可以不按照用户的指示而由处理部100进行确定。

另外,图17(a)部分中,将相似度的阈值设为80%,图17(b)部分中,将提取个数设为100个,但是这些值为例示,能够按照筛选的精度等条件设定阈值及提取个数。能够按照用户经由操作部400进行的输入来进行设定。并且,与图17相反地,可以在使用了三维AAM描述符的情况下,设为“以相似度高到低的顺序提取化合物”,在使用了不变量化AAM描述符的情况下,设为“提取相似度为阈值以上的化合物”。化合物提取部140将如图17所示那样的提取结果作为化合物提取结果260存储于存储部200(参考图3)。

<目标蛋白质输入的筛选>

图18是表示针对目标蛋白质的口袋结构体的使用了三维AAM描述符的筛选的步骤的流程图。若开始进行处理,则特征量计算部120计算出针对目标蛋白质的口袋结构体的三维AAM描述符(步骤S400:特征量计算工序)。步骤S400中的三维AAM描述符的计算能够通过图9的流程图所示的步骤进行。相似度计算部130计算出针对化合物的三维AAM描述符与在步骤S400中所计算的针对口袋结构体的三维AAM描述符的相似度(步骤S402:相似度计算工序)。在计算出相似度之后,化合物提取部140根据相似度提取目标化合物(步骤S404:目标化合物提取工序)。与上述配体输入的情况相同地,基于相似度的目标化合物的提取(步骤S404)具体能够通过“提取相似度为阈值以上的化合物”、“以相似度高到低的顺序提取化合物”等来进行。

在使用不变量化AAM描述符的情况下,也能够以与图18的流程图相同的步骤提取目标化合物。

图19是表示目标蛋白质输入的筛选结果的例的表。图19中的图19(a)部分表示设为使用三维AAM描述符“提取相似度为阈值以上的化合物”的情况的结果,图19(b)部分表示设为使用不变量化AAM描述符“以相似度高到低的顺序提取化合物”的情况的结果。能够按照筛选的精度等条件设定相似度的阈值及提取个数。能够按照用户经由操作部400进行的输入来进行设定。并且,与图19相反地,可以在使用了三维AAM描述符的情况下,设为“以相似度高到低的顺序提取化合物”,在使用了不变量化AAM描述符的情况下,设为“提取相似度为阈值以上的化合物”。

目标蛋白质输入的筛选的情况也与配体输入的筛选的情况(参考图17及其说明)相同地,可以改变氨基酸的种类,也可以使用针对不同的氨基酸的多个描述符(三维AAM描述符、不变量化AAM描述符)。用于化合物的提取的描述符可以为1种类,但是通过使用多个种类的描述符,能够正确进行基于相似度的化合物的提取。另外,在使用多个种类的描述符的情况下,在这些描述符之间的氨基酸的组合并无特别限定。关于针对哪一个氨基酸计算出描述符及相似度,可以按照用户经由操作部400进行的指示而由处理部100(特征量计算部120、相似度计算部130、化合物提取部140)进行确定,也可以不按照用户的指示而由处理部100进行确定。

化合物提取部140将如图19所示那样的提取结果作为化合物提取结果260存储于存储部200(参考图3)。

<筛选装置的效果>

如上所述,第1实施方式所涉及的筛选装置10中,使用通过本发明所涉及的特征量计算方法及特征量计算程序计算出的特征量(三维AAM描述符、不变量化AAM描述符),并通过本发明所涉及的筛选方法及筛选程序,能够有效进行医药候选化合物的筛选。

<第2实施方式>

对本发明的第2实施方式所涉及的化合物创建装置进行说明。图20是表示化合物创建装置20(特征量计算装置、化合物创建装置)的结构的框图。另外,针对与第1实施方式相同的要件标注相同的参考符号,并省略详细的说明。

化合物创建装置20包含处理部101。处理部101构成为如图21那样,且包含信息输入部110、特征量计算部120(特征量计算部)、生成器构建部132(生成器构建部)、化合物立体结构生成部142(化合物立体结构生成部)、显示控制部150。信息输入部110、特征量计算部120、显示控制部150的功能分别与上述筛选装置10中的信息输入部110、特征量计算部120、显示控制部150相同。与筛选装置10的上述内容相同地,能够使用各种处理器(processor)来实现这些各部的功能。

图22是表示存储于存储部201的信息的图。在存储部201中,存储有筛选装置10中的立体结构生成结果270来代替化合物提取结果260。与图4的上述内容相同地,存储于存储部201的信息相互建立关联地存储。

<目标化合物的立体结构生成>

对使用了上述三维AAM描述符及不变量化AAM描述符的目标化合物(医药候选化合物)的立体结构生成进行说明。基于化合物创建装置20的目标化合物的立体结构生成中,由于不进行检索,因此即使在成为“基于筛选的检索的结果为无解”的情况下也能够生成化合物的立体结构,从而能够有效创建医药候选化合物的立体结构。立体结构的生成具有根据配体的描述符(三维AAM描述符、不变量化AAM描述符)进行的模式和根据目标蛋白质的口袋结构体的描述符(三维AAM描述符、不变量化AAM描述符)进行的模式。能够按照用户经由操作部400进行的操作来选择通过哪一个模式进行立体结构的生成。

<输入配体时的立体结构生成>

图23是表示在输入配体的情况下的立体结构生成步骤的流程图。若开始进行处理,则特征量计算部120计算出配体的描述符(三维AAM描述符)(步骤S500:对象结构体指定工序、立体结构生成工序、特征量计算工序)。与第1实施方式相同地,步骤S500的处理能够使用本发明所涉及的特征量计算方法及特征量计算程序来进行(参考图5~图8及针对这些图的说明)。

步骤S502中,生成器构建部132通过机器学习构建生成器(生成器构建工序)。以下,参考图24并对步骤S502的处理进行说明。(步骤1)特征量计算部120针对多个化合物计算出三维AAM描述符,并制作结构式(被立体化的结构式)和三维AAM描述符的配对(三维数据彼此)。(步骤2)生成器构建部132通过将化合物的立体结构设为教师数据且将三维AAM描述符设为解释变量的机器学习(深层学习)构建生成器。深层学习的方法并不限定于特定的方法,例如,可以为简单的全部结合的类神经网络,也可以为卷积类神经网络(CNN:Convolutional Neural Network)。然而,立体结构的生成精度取决于所使用的学习方法,因此优选按照立体结构的生成条件、要求精度等条件来选择学习方法。作为生成器构建方法,可以使用后述附录14、附录15中所记载的方法。

若上述步骤1、步骤2的处理结束,则返回到图23的流程图。化合物立体结构生成部142使用所构建的生成器从配体的三维AAM描述符生成目标化合物(命中)的立体结构(被立体化的结构式)(步骤S504:化合物立体结构生成工序)。由此,能够获得具有与配体相似的药效(与目标蛋白质的键合)的化合物即医药候选化合物的立体结构。另外,提供相同的三维AAM描述符的立体结构能够存在多个。化合物立体结构生成部142将所生成的立体结构作为立体结构生成结果270与三维AAM描述符(三维AAM描述符230)建立关联并存储于存储部201(参考图22)。按照用户经由操作部400进行的指示,显示控制部150可以将所生成的立体结构显示于显示器310。

另外,在上述步骤中,计算出用于机器学习的三维AAM描述符的氨基酸可以为1种类,也可以为多个种类。然而,通过计算出针对多个种类的氨基酸的三维AAM描述符并将其用于学习,能够提高所生成的立体结构的精度。另外,在使用氨基酸的种类不同的多个三维AAM描述符的情况下,在这些描述符之间的氨基酸的组合并无特别限定。关于针对哪一个氨基酸计算出三维AAM描述符并将其用于学习,可以按照用户经由操作部400进行的指示而由处理部100(特征量计算部120、相似度计算部130、化合物提取部140)进行确定,也可以不按照用户的指示而由处理部100进行确定。

<立体结构的生成例>

对使用通过机器学习所构建的生成器生成的立体结构的例进行说明。该例中,使用简单的全部结合的类神经网络并通过上述的方法对库化合物中的1,800个进行学习,且调查了剩余200个化合物的立体结构能够再现到哪一程度。其结果示于图25中。若增加类神经网络的中间层的数量,则平均cos相似度成为59%。图26是表示针对显示出这种相似度的例的从三维AAM描述符生成的立体结构(结构式)和正解结构式(分别为图26中的26(a)部分、26(b)部分)的图。

<教师数据的特征与所生成的立体结构的关系>

通过上述步骤所生成的立体结构受到作为教师数据所提供的化合物的特征的影响。因此,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。例如,通过提供具有容易合成的立体结构的化合物的三维AAM描述符作为教师数据,能够生成具有与配体相似的药效且具有容易合成的立体结构的化合物。关于提供针对哪一种化合物的三维AAM描述符作为教师数据,能够根据欲生成的化合物的特征来进行选择。

<使用了不变量化AAM描述符的立体结构的生成>

图23~图26中,对使用了三维AAM描述符的立体结构的生成进行了说明。相对于此,在使用了不变量化AAM描述符(不变量化特征量)的情况下,也与使用三维AAM描述符的情况相同地,能够通过将不变量化AAM描述符设为教师数据且将立体结构(被立体化的结构式)设为解释变量的机器学习(深层学习)生成目标化合物的立体结构。

<输入目标蛋白质的立体结构生成>

化合物创建装置20中,除了基于上述配体输入的立体结构生成以外,能够通过输入目标蛋白质来生成目标化合物的立体结构。此时,也与配体输入的情况相同地,能够进行使用了三维AAM描述符的立体结构生成和使用了不变量化AAM描述符的立体结构生成。

图27是表示在输入目标蛋白质的情况下(设为使用三维AAM描述符)的立体结构生成步骤的流程图。若开始进行处理,则特征量计算部120计算出目标蛋白质的口袋结构体的三维AAM描述符(步骤S600:对象结构体指定工序、立体结构生成工序、特征量计算工序)。与第1实施方式相同地,步骤S600的处理能够使用本发明所涉及的特征量计算方法来进行(参考图9、图10及针对这些图的说明)。

步骤S602中,与配体输入的情况相同地,生成器构建部132通过机器学习(深层学习)构建生成器(生成器构建工序)。能够以与上述步骤1、步骤2相同的方式进行生成器的构建。化合物立体结构生成部142使用所构建的生成器从口袋结构体的三维AAM描述符生成目标化合物(命中)的立体结构(被立体化的结构式)(步骤S604:化合物立体结构生成工序)。由此,能够获得具有与口袋结构体相似的药效(与目标蛋白质的键合)的化合物即医药候选化合物的立体结构。另外,提供相同的三维AAM描述符的立体结构能够存在多个。化合物立体结构生成部142将所生成的立体结构作为立体结构生成结果270与三维AAM描述符(三维AAM描述符230)建立关联并存储于存储部201(参考图22)。按照用户经由操作部400进行的指示,显示控制部150可以将所生成的立体结构显示于显示器310。

<化合物创建装置的效果>

如上所述,第2实施方式所涉及的化合物创建装置20中,使用通过本发明所涉及的特征量计算方法及特征量计算程序计算出的特征量(三维AAM描述符、不变量化AAM描述符),并通过本发明所涉及的化合物创建方法及化合物创建程序,能够有效创建医药候选化合物的立体结构。

<第3实施方式>

上述第1实施方式为进行特征量的计算及基于此的筛选的方式,第2实施方式为进行特征量的计算及基于此的目标化合物的立体结构创建的方式,但是除了特征量的计算以外,也可以进行筛选和目标化合物的立体结构创建这两个。因此,第3实施方式所涉及的医药候选化合物搜索装置30(特征量计算装置、筛选装置、化合物创建装置;参考图28)中,具有图28所示的处理部102来代替图1所示的筛选装置10的处理部100或图20所示的化合物创建装置20的处理部101。如图29所示,处理部102具有特征量计算部120(特征量计算部、不变量化部)、相似度计算部130(相似度计算部)、生成器构建部132(生成器构建部)、化合物提取部140(化合物提取部)、化合物立体结构生成部142(化合物立体结构生成部),能够进行特征量的计算、筛选及化合物的立体结构创建。并且,医药候选化合物搜索装置30将与此相对应的信息存储于存储部202。具体而言,如图30所示,与存储于存储部200及存储部201的信息(参考图3、图22)相对应地存储于存储部202。

其他要件与图1所示的筛选装置10、图20所示的化合物创建装置20相同,因此标注相同的参考符号并省略详细的说明。

通过上述结构,在第3实施方式所涉及的医药候选化合物搜索装置30中,也与筛选装置10、化合物创建装置20相同地,能够计算出准确表示对象结构体的化学性质的特征量,且有效进行医药候选化合物的筛选,并有效创建医药候选化合物的立体结构。

以上,对本发明的实施方式进行了说明,但是本发明并不限定于上述方式,如以下所例示,在不脱离本发明的主旨的范围内能够进行各种变形。

<可处理的医药的目标>

本发明中,作为医药的目标,除了蛋白质以外能够使用DNA(DeoxyribonucleicAcid)、RNA(Ribonucleic Acid)、细胞膜、多糖。然而,在第1~第3实施方式中,需要将氨基酸变更为另一物质。具体而言,在DNA的情况下,将氨基酸变更为核酸碱基,在RNA的情况下,将氨基酸变更为核酸碱基,在细胞膜的情况下,将氨基酸变更为脂质分子,在多糖的情况下,将氨基酸变更为单糖分子。以下,对本发明中通过该变更也可处理DNA、RNA、细胞膜、多糖的原因进行说明。蛋白质、DNA、RNA、细胞膜、多糖统称为生物高分子,且由固有的组成部分组成。具体而言,蛋白质的组成部分为氨基酸,DNA的组成部分为核酸碱基,RNA的组成部分相同地为核酸碱基,细胞膜的组成部分为脂质分子,多糖的组成部分为单糖分子。与蛋白质相同地,作为除了蛋白质以外的生物高分子的DNA、RNA、细胞膜、多糖中也具有作为活性部位的口袋,因此在医药的目标(目标生物高分子)为DNA、RNA、细胞膜、多糖的情况下,本发明也能够通过将在蛋白质的情况下所示的第1~第3实施方式中的氨基酸变更为目标的组成部分来进行应对。另外,对在化合物或口袋结构体的周围的氨基酸、核酸碱基、脂质分子、单糖分子的聚集程度进行定量化时,也能够考虑水。

<可处理的活性>

本发明中,除了“基于化合物的对目标生物分子的单独的活性”等通常的活性以外,还能够针对“基于化合物的除了目标生物分子以外对由其他生物分子组成的复合体的细胞的活性”进行使用。

<(变形例1)针对除了氨基酸以外的生物高分子的特征量及其利用>

<目标及探针>

在作为医药的目标(目标生物高分子)使用作为除了蛋白质以外的生物高分子(化合物)的DNA、RNA、细胞膜、多糖的情况下,在特征量的计算中,将探针设成不是氨基酸的另一物质(各目标的组成部分)。具体而言,在目标为“DNA、RNA、细胞膜及多糖”的情况下,将探针分别设为“1种类以上的核酸碱基、1种类以上的核酸碱基、1种类以上的脂质分子及1种类以上的单糖分子”。并且,在将这些作为探针而对其聚集程度进行定量化时,可以考虑水、1种类以上的离子。并且,在目标由“DNA、RNA、细胞膜、多糖”中的多个种类的生物高分子构成的情况下,探针也能够按照目标的结构设为“1种类以上的核酸碱基、1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及1种类以上的离子”中的1个以上(可以为与目标的结构相对应的种类、数量及它们的组合)。构成探针的离子可以为单原子离子,也可以为多原子离子。另外,以所有的探针均产生范德华力为前提。

<特征量的计算及筛选>

进行特征量(变形例1所涉及的特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储变形例1所涉及的描述符来代替图3中的三维AAM描述符230,且计算及存储变形例1所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为第1实施方式所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及1种类以上的离子中的1个以上(可以为任意种类、数量及组合)”并计算出分布函数(参考式(1)),根据该分布函数计算出变形例1所涉及的特征量并对变形例1所涉及的特征量进行傅里叶变换来计算出变形例1所涉及的不变量化特征量(参考式(2))。并且,可以使用针对2种类不同的探针(由1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及1种类以上的离子中的1个以上构成的第1探针和由1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及1种类以上的离子中的1个以上构成且与第1探针不同的第2探针)的变形例1所涉及的特征量,并通过相关函数的角度积分计算出变形例1所涉及的不变量化特征量(参考式(3)、式(4))。

并且,能够使用变形例1所涉及的特征量来代替第1实施方式中的三维AAM描述符,并根据针对多个化合物的变形例1所涉及的特征量和针对键合化合物的变形例1所涉及的特征量的相似度提取目标化合物。可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。

<特征量的计算及化合物的创建>

进行特征量(变形例1所涉及的特征量)的计算及化合物的创建的装置(特征量计算装置、化合物创建装置)的结构与第2实施方式相同(参考图20~图22)。然而,计算及存储变形例1所涉及的描述符(变形例1所涉及的特征量)来代替图22中的三维AAM描述符230,且计算及存储变形例1所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及化合物的创建步骤与第2实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、化合物创建方法及化合物创建程序。在变形例1中,通过将化合物的立体结构设为教师数据且将变形例1所涉及的特征量设为解释变量的机器学习(深层学习)构建生成器,并能够使用所构建的生成器,从针对键合化合物的变形例1所涉及的特征量生成目标生物高分子的立体结构,其中,所述键合化合物为确认到与目标生物高分子的键合的化合物。另外,与第1至第3实施方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。

与第1至第3实施方式的上述内容相同地,从局部来看,化合物的药效(对于DNA等目标的键合力)被表示为化合物与核酸碱基等(探针)之间的相互作用的结果,因此只要在化合物之间核酸碱基等的聚集程度为相似,则这些化合物与目标的键合力相似。即,变形例1所涉及的特征量相似的化合物显示出相似的药效。因此,在变形例1中,能够通过变形例1所涉及的特征量来准确表示化合物的化学性质。并且,若与目标生物高分子键合的键合化合物和对象化合物的变形例1所涉及的特征量相似,则两者的药效相似。因此,根据变形例1,根据变形例1所涉及的特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。并且,根据变形例1,与上述实施方式相同地,生成具有与键合化合物的特征量(变形例1所涉及的特征量)相似的(因此,药效相似的)特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。

另外,在进行特征量计算、筛选及化合物创建的情况(对应于第3实施方式)下,能够通过与图28~图30相同的结构来进行。

<(变形例2)针对除了氨基酸及氨基酸以外的特征量及其利用>

<目标及探针>

在变形例2中,将“蛋白质与除了蛋白质以外的生物高分子(DNA、RNA、细胞膜、多糖)的复合体”设为目标。并且,将“1种类以上的氨基酸”(第1探针)和“1种类以上的核酸碱基、1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及1种类以上的离子中的1个以上”(第2探针;可以为任意种类、数量、组合)设为探针。能够按照目标的结构设定第1、第2探针的结构(种类、数量及它们的组合)。构成探针的离子可以为单原子离子,也可以为多原子离子。另外,以所有的探针均产生范德华力为前提。

<特征量的计算及筛选>

进行特征量(变形例2所涉及的特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储变形例2所涉及的描述符(变形例2所涉及的特征量)来代替图3中的三维AAM描述符230,且计算及存储变形例2所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为变形例2所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“1种类以上的氨基酸”(第1探针)和“1种类以上的核酸碱基、1种类以上的脂质分子、水、1种类以上的单糖分子及1种类以上的离子中的1个以上”(第2探针;可以为任意种类、数量、组合)并计算出分布函数(参考式(1)),根据该分布函数计算出变形例2所涉及的特征量并对变形例2所涉及的特征量进行傅里叶变换来计算出变形例2所涉及的不变量化特征量(参考式(2))。并且,可以使用针对“1种类以上的氨基酸”(第1探针)和“1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及1种类以上的离子中的1个以上”(第2探针;可以为任意种类、数量、组合)中的至少一个不同的2种类的探针的变形例2所涉及的特征量,并通过相关函数的角度积分计算出变形例2所涉及的不变量化特征量(参考式(3)、式(4))。

并且,能够使用变形例2所涉及的特征量来代替第1实施方式中的三维AAM描述符,并根据针对多个化合物的变形例2所涉及的特征量和针对键合化合物的变形例2所涉及的特征量的相似度提取目标化合物。可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。

<特征量的计算及化合物的创建>

进行特征量(变形例2所涉及的特征量)的计算及化合物的创建的装置(特征量计算装置、化合物创建装置)的结构与第2实施方式相同(参考图20~图22)。然而,计算及存储变形例2所涉及的描述符(变形例2所涉及的特征量)来代替图22中的三维AAM描述符230,且计算及存储变形例2所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及化合物的创建步骤与第2实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、化合物创建方法及化合物创建程序。在变形例2中,通过将化合物的立体结构设为教师数据且将变形例2所涉及的特征量设为解释变量的机器学习(深层学习)构建生成器,并能够使用所构建的生成器,从针对键合化合物的变形例2所涉及的特征量生成目标生物高分子的立体结构,其中,所述键合化合物为确认到与目标生物高分子的键合的化合物。另外,与第1至第3实施方式及变形例1相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。

与第1至第3实施方式及变形例1的上述内容相同地,从局部来看,化合物的药效(对于目标的键合力)被表示为化合物与探针之间的相互作用的结果,因此只要在化合物之间探针的聚集程度为相似,则这些化合物与目标的键合力相似。即,变形例2所涉及的特征量相似的化合物显示出相似的药效。因此,在变形例2中,能够通过变形例2所涉及的特征量来准确表示化合物的化学性质。并且,若与目标生物高分子键合的键合化合物和对象化合物的变形例2所涉及的特征量相似,则两者的药效相似。因此,根据变形例2,根据变形例2所涉及的特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。并且,根据变形例2,与上述实施方式及变形例1相同地,生成具有与键合化合物的特征量(变形例2所涉及的特征量)相似的(因此,药效相似的)特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。

另外,在进行特征量计算、筛选及化合物创建的情况(对应于第3实施方式)下,能够通过与图28~图30相同的结构来进行。

<(变形例3)针对虚拟的点电荷等的特征量及其利用>

<目标及探针>

在变形例3中,将生物高分子(化合物)设为目标,并将“电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及它们的组合)”(具有实数电荷且产生范德华力的虚拟的点电荷)设为探针。这些点电荷为“单个点”的一例。

<特征量的计算及筛选>

进行特征量(变形例3所涉及的特征量;第2特征量、第2不变量化特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储第2描述符(第2特征量)来代替图3中的三维AAM描述符230,且计算及存储第2不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为第1实施方式所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及它们的组合)”并计算出分布函数(参考式(1)),根据该分布函数计算出第2特征量并对第2特征量进行傅里叶变换来计算出第2不变量化特征量(参考式(2))。并且,可以使用针对2种类不同的探针(由第1点电荷、第2点电荷、第3点电荷、第4点电荷及第5点电荷中的1个以上构成的第1探针和由第1点电荷、第2点电荷、第3点电荷、第4点电荷及第5点电荷中的1个以上构成且与第1探针不同的第2探针)的第2特征量,并通过相关函数的角度积分计算出第2不变量化特征量(参考式(3)、式(4))。

并且,能够使用第2特征量来代替第1实施方式中的三维AAM描述符,并根据针对多个化合物的第2特征量和针对键合化合物的第2特征量的相似度提取目标化合物。可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。

<特征量的计算及化合物的创建>

进行特征量(第2特征量)的计算及化合物的创建的装置(特征量计算装置、化合物创建装置)的结构与第2实施方式相同(参考图20~图22)。然而,计算及存储第2描述符(第2特征量)来代替图22中的三维AAM描述符230,且计算及存储第2不变量化特征量来代替不变量化AAM描述符240。特征量的计算及化合物的创建步骤与第2实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、化合物创建方法及化合物创建程序。在变形例3中,通过将化合物的立体结构设为教师数据且将第2特征量设为解释变量的机器学习(深层学习)构建生成器,并能够使用所构建的生成器,从针对键合化合物的第2特征量生成目标生物高分子的立体结构,其中,所述键合化合物为确认到与目标生物高分子的键合的化合物。另外,与第1至第3实施方式及变形例1、变形例2相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。

与第1至第3实施方式及变形例1、变形例2的上述内容相同地,从局部来看,化合物的药效(对于目标的键合力)被表示为化合物与探针之间的相互作用的结果,因此只要在化合物之间探针的聚集程度为相似,则这些化合物与目标的键合力相似。即,第2特征量相似的化合物显示出相似的药效。因此,在变形例3中,能够通过第2特征量来准确表示化合物的化学性质。并且,若与目标生物高分子键合的键合化合物和对象化合物的第2特征量相似,则两者的药效相似。因此,根据变形例3,根据第2特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。并且,根据变形例3,与第1至第3实施方式及变形例1、变形例2相同地,生成具有与键合化合物的特征量(第2特征量)相似的(因此,药效相似的)特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。

另外,在进行特征量计算、筛选及化合物创建的情况(对应于第3实施方式)下,能够通过与图28~图30相同的结构来进行。

<(变形例4)针对氨基酸及虚拟的点电荷等的特征量及其利用>

<目标及探针>

在变形例4中,将生物高分子(化合物)设为目标,并将“1种类以上的氨基酸即第1探针和电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷、分开配置第1点电荷和第2点电荷的偶极子及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及组合)即第2探针”设为探针。第2探针可以为除了偶极子以外的点电荷(第1~第5点电荷中的1个以上)。第1至第5点电荷为“单个点”的一例。

<特征量的计算及筛选>

进行特征量(变形例4所涉及的特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储变形例4所涉及的描述符(变形例4所涉及的特征量)来代替图3中的三维AAM描述符230,且计算及存储变形例4所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为第1实施方式所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“1种类以上的氨基酸即第1探针和电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷、分开配置第1点电荷和第2点电荷的偶极子及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及组合)即第2探针”并计算出分布函数(参考式(1)),根据该分布函数计算出变形例4所涉及的特征量并对变形例4所涉及的特征量进行傅里叶变换来计算出变形例4所涉及的不变量化特征量(参考式(2))。第2探针可以为除了偶极子以外的点电荷(第1~第5点电荷中的1个以上)。并且,可以使用针对第1探针和第2探针中的至少一个不同的2种类的探针的变形例4所涉及的特征量,并通过相关函数的角度积分计算出变形例4所涉及的不变量化特征量(参考式(3)、式(4))。

并且,能够使用变形例4所涉及的特征量来代替第1实施方式中的三维AAM描述符,并根据针对多个化合物的变形例4所涉及的特征量和针对键合化合物的变形例4所涉及的特征量的相似度提取目标化合物。可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。

<特征量的计算及化合物的创建>

进行特征量(变形例4所涉及的特征量)的计算及化合物的创建的装置(特征量计算装置、化合物创建装置)的结构与第2实施方式相同(参考图20~图22)。然而,计算及存储变形例4所涉及的描述符(变形例4所涉及的特征量)来代替图22中的三维AAM描述符230,且计算及存储变形例4所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及化合物的创建步骤与第2实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、化合物创建方法及化合物创建程序。在变形例4中,通过将化合物的立体结构设为教师数据且将变形例4所涉及的特征量设为解释变量的机器学习(深层学习)构建生成器,并能够使用所构建的生成器,从针对键合化合物的变形例4所涉及的特征量生成目标生物高分子的立体结构,其中,所述键合化合物为确认到与目标生物高分子的键合的化合物。另外,与第1至第3实施方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。

与第1至第3实施方式的上述内容相同地,从局部来看,化合物的药效(对于目标的键合力)被表示为化合物与探针之间的相互作用的结果,因此只要在化合物之间探针的聚集程度为相似,则这些化合物与目标的键合力相似。即,变形例4所涉及的特征量相似的化合物显示出相似的药效。因此,在变形例4中,能够通过变形例4所涉及的特征量来准确表示化合物的化学性质。并且,若与目标生物高分子键合的键合化合物和对象化合物的变形例4所涉及的特征量相似,则两者的药效相似。因此,根据变形例4,根据变形例4所涉及的特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。并且,根据变形例4,与上述实施方式相同地,生成具有与键合化合物的特征量(变形例4所涉及的特征量)相似的(因此,药效相似的)特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。

另外,在进行特征量计算、筛选及化合物创建的情况(对应于第3实施方式)下,能够通过与图28~图30相同的结构来进行。

<(变形例5)针对核酸碱基等及虚拟的点电荷等的特征量及其利用>

<目标及探针>

在变形例5中,将生物高分子(化合物)设为目标,并将“1种类以上的核酸碱基、1种类以上的脂质分子、水、1种类以上的单糖分子及1种类以上的离子中的1个以上(可以为任意种类、数量及组合)”即第1探针和“电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷、分开配置第1点电荷和第2点电荷的偶极子及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及组合)”即第2探针设为探针。可以将第1探针设为1种类以上的单原子离子且将第2探针设为点电荷(第1~第5点电荷中的1个以上)。“单原子离子”及“点电荷”为“单个点”的一例。

<特征量的计算及筛选>

进行特征量(变形例5所涉及的特征量;第3特征量、第3不变量化特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储第3描述符(第3特征量)来代替图3中的三维AAM描述符230,且计算及存储第3不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为第1实施方式所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“1种类以上的核酸碱基、1种类以上的脂质分子、水、1种类以上的单糖分子及1种类以上的离子中的1个以上(可以为任意种类、数量及组合)”即第1探针和“电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷、分开配置第1点电荷和第2点电荷的偶极子及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及组合)”即第2探针并计算出分布函数(参考式(1)),根据该分布函数计算出第3特征量并对第3特征量进行傅里叶变换来计算出第3不变量化特征量(参考式(2))。并且,可以使用针对第1探针和第2探针中的至少一个不同的2种类的探针的第3特征量,并通过相关函数的角度积分计算出第3不变量化特征量(参考式(3)、式(4))。如上所述,可以将第1探针设为1种类以上的单原子离子且将第2探针设为点电荷(第1~第5点电荷中的1个以上)。“单原子离子”及“点电荷”为“单个点”的一例。

并且,能够使用第3特征量来代替第1实施方式中的三维AAM描述符,并根据针对多个化合物的第3特征量和针对键合化合物的第3特征量的相似度提取目标化合物。可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。

<特征量的计算及化合物的创建>

进行特征量(第3特征量)的计算及化合物的创建的装置(特征量计算装置、化合物创建装置)的结构与第2实施方式相同(参考图20~图22)。然而,计算及存储第3描述符(第3特征量)来代替图22中的三维AAM描述符230,且计算及存储第3不变量化特征量来代替不变量化AAM描述符240。特征量的计算及化合物的创建步骤与第2实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、化合物创建方法及化合物创建程序。在变形例5中,通过将化合物的立体结构设为教师数据且将第3特征量设为解释变量的机器学习(深层学习)构建生成器,并能够使用所构建的生成器,从针对键合化合物的第3特征量生成目标生物高分子的立体结构,其中,所述键合化合物为确认到与目标生物高分子的键合的化合物。另外,与第1至第3实施方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。

与第1至第3实施方式的上述内容相同地,从局部来看,化合物的药效(对于目标的键合力)被表示为化合物与探针之间的相互作用的结果,因此只要在化合物之间探针的聚集程度为相似,则这些化合物与目标的键合力相似。即,第3特征量相似的化合物显示出相似的药效。因此,在变形例5中,能够通过第3特征量来准确表示化合物的化学性质。并且,若与目标生物高分子键合的键合化合物和对象化合物的第3特征量相似,则两者的药效相似。因此,根据变形例5,根据第3特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。并且,根据变形例5,与上述实施方式相同地,生成具有与键合化合物的特征量(第3特征量)相似的(因此,药效相似的)特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。

另外,在进行特征量计算、筛选及化合物创建的情况(对应于第3实施方式)下,能够通过与图28~图30相同的结构来进行。

<(变形例6)针对氨基酸、核酸碱基等及虚拟的点电荷等的特征量及其利用>

<目标及探针>

在变形例6中,将生物高分子(化合物)设为目标,并将“1种类以上的氨基酸”即第1探针和“1种类以上的核酸碱基、1种类以上的脂质分子、水、1种类以上的单糖分子及1种类以上的离子中的1个以上(可以为任意种类、数量及组合)”即第2探针和“电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷、分开配置第1点电荷和第2点电荷的偶极子及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及组合)”即第3探针设为探针。可以将第2探针设为1种类以上的单原子离子且将第3探针设为第1~第5点电荷中的1个以上。“单原子离子”及“点电荷”为“单个点”的一例。

<特征量的计算及筛选>

进行特征量(变形例6所涉及的特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储变形例6所涉及的描述符(变形例6所涉及的特征量)来代替图3中的三维AAM描述符230,且计算及存储变形例6所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为第1实施方式所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“1种类以上的氨基酸”即第1探针和“1种类以上的核酸碱基、1种类以上的脂质分子、水、1种类以上的单糖分子及1种类以上的离子中的1个以上(可以为任意种类、数量及组合)”即第2探针和“电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷、分开配置第1点电荷和第2点电荷的偶极子及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及组合)”即第3探针并计算出分布函数(参考式(1)),根据该分布函数计算出变形例6所涉及的特征量并对变形例6所涉及的特征量进行傅里叶变换来计算出变形例6所涉及的不变量化特征量(参考式(2))。并且,可以使用针对第1探针、第2探针及第3探针中的至少一个不同的2种类的探针的变形例6所涉及的特征量,并通过相关函数的角度积分计算出变形例6所涉及的不变量化特征量(参考式(3)、式(4))。如上所述,可以将第2探针设为1种类以上的单原子离子且将第3探针设为第1~第5点电荷中的1个以上。

并且,能够使用变形例6所涉及的特征量来代替第1实施方式中的三维AAM描述符,并根据针对多个化合物的变形例6所涉及的特征量和针对键合化合物的变形例6所涉及的特征量的相似度提取目标化合物。可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。

<特征量的计算及化合物的创建>

进行特征量(变形例6所涉及的特征量)的计算及化合物的创建的装置(特征量计算装置、化合物创建装置)的结构与第2实施方式相同(参考图20~图22)。然而,计算及存储变形例6所涉及的描述符(变形例6所涉及的特征量)来代替图22中的三维AAM描述符230,且计算及存储变形例6所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及化合物的创建步骤与第2实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、化合物创建方法及化合物创建程序。在变形例6中,通过将化合物的立体结构设为教师数据且将变形例6所涉及的特征量设为解释变量的机器学习(深层学习)构建生成器,并能够使用所构建的生成器,从针对键合化合物的变形例6所涉及的特征量生成目标生物高分子的立体结构,其中,所述键合化合物为确认到与目标生物高分子的键合的化合物。另外,与第1至第3实施方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。

与第1至第3实施方式的上述内容相同地,从局部来看,化合物的药效(对于目标的键合力)被表示为化合物与探针之间的相互作用的结果,因此只要在化合物之间探针的聚集程度为相似,则这些化合物与目标的键合力相似。即,变形例6所涉及的特征量相似的化合物显示出相似的药效。因此,在变形例6中,能够通过变形例6所涉及的特征量来准确表示化合物的化学性质。并且,若与目标生物高分子键合的键合化合物和对象化合物的变形例6所涉及的特征量相似,则两者的药效相似。因此,根据变形例6,根据变形例6所涉及的特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。并且,根据变形例6,与上述实施方式相同地,生成具有与键合化合物的特征量(变形例6所涉及的特征量)相似的(因此,药效相似的)特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。

另外,在进行特征量计算、筛选及化合物创建的情况(对应于第3实施方式)下,能够通过与图28~图30相同的结构来进行。

<(变形例7)针对单原子离子的特征量及其利用>

<目标及探针>

在变形例7中,将化合物设为目标,并将“1种类以上的单原子离子”设为探针。单原子离子为“单个点”的一例。

<特征量的计算及筛选>

进行特征量(变形例7所涉及的特征量;第1特征量、第1不变量化特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储第1描述符(第1特征量)来代替图3中的三维AAM描述符230,且计算及存储第1不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为第1实施方式所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“1种类以上的单原子离子(可以为任意种类、数量及组合)”并计算出分布函数(参考式(1)),根据该分布函数计算出第1特征量并对第1特征量进行傅里叶变换来计算出第1不变量化特征量(参考式(2))。并且,可以使用针对第1探针和第2探针中的至少一个不同的2种类的探针(由1种类以上的单原子离子构成的第1探针和由1种类以上的单原子离子构成且与第1探针不同的第2探针)的第1特征量,并通过相关函数的角度积分计算出第1不变量化特征量(参考式(3)、式(4))。

<基于各特征量的命中数量的比较>

图31是表示针对与上述图13相同的系统(蛋白质ABL1)对将化合物作为对象结构体的基于不变量化特征量(将氨基酸作为探针的不变量化特征量及将除了氨基酸以外的物质作为探针的不变量化特征量)的命中的发现容易度进行比较评价的结果的一例的图。根据图31,可知尽管效果根据描述符(特征量)的种类(命中数量的期待值)存在差异,但是与随机的情况(参考图13)相比期待值得到提高。另外,图31是在(组数量=183)的情况下的分群的结果,因此针对“AAM”的命中数量与图13的情况(在组数=221的情况下的分群的结果)不同。如此,在使用将除了氨基酸以外的物质作为探针的不变量化特征量的情况下,也能够有效进行医药候选化合物的筛选。

(附录)

除了上述方式以外,以下中所记载的结构也包含在本发明的范围内。另外,以下中所记载的方法、装置及程序的具体的实施方式与第1实施方式~第3实施方式相同。

(附录1)

关于附录1所涉及的特征量计算装置,在第9方式中,对象结构体指定部指定化合物作为对象结构体,立体结构生成部生成基于多个原子的化合物的立体结构,特征量计算部计算出在三维空间中对探针的如下聚集程度进行定量化而获得的特征量即第1特征量,所述聚集程度为由立体结构生成部生成的化合物的立体结构的周围的探针的聚集程度,且为将1种类以上的单原子离子作为探针的聚集程度,不变量化部使第1特征量针对化合物的旋转及平移不变量化来计算出第1不变量化特征量。根据附录1的结构,与上述第2方式相同地,能够计算出准确表示化合物的化学性质的特征量。

(附录2)

关于附录2所涉及的特征量计算装置,在附录1中,特征量计算部针对1种类以上的单原子离子即第1探针和作为1种类以上的单原子离子的与第1探针不同的第2探针计算出第1特征量,不变量化部使用针对第1探针的第1特征量和针对第2探针的第1特征量来计算出第1不变量化特征量。根据附录2的结构,与上述第3方式相同地,能够正确进行基于特征量(第1不变量化特征量)的化合物的比较(药效判定)。

(附录3)

关于附录3所涉及的特征量计算装置,在附录1中,对象结构体指定部指定化合物作为对象结构体,立体结构生成部生成基于多个原子的化合物的立体结构,特征量计算部计算出在三维空间中对探针的如下聚集程度进行定量化而获得的特征量即第2特征量,所述聚集程度为由立体结构生成部生成的化合物的立体结构的周围的探针的聚集程度,且为将电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷及零电荷的第5点电荷中的1个以上作为探针的聚集程度,不变量化部使第2特征量针对化合物的旋转及平移不变量化来计算出第2不变量化特征量。根据附录3的结构,与上述第4方式相同地,能够计算出准确表示对象结构体的化学性质的特征量。

图32是表示针对与上述图13、图31相同的系统(蛋白质ABL1)对将化合物作为对象结构体的基于不变量化特征量的命中的发现容易度进行比较评价的结果的一例的图。具体而言,表示针对将电荷为+0.1的点电荷(第3点电荷)作为探针的不变量化特征量(第2不变量化特征量)及将电荷为-0.1的点电荷(第4点电荷)作为探针的不变量化特征量(第2不变量化特征量)的评价结果。根据图32,可知尽管效果根据描述符(特征量)的种类(命中数量的期待值)存在差异,但是与随机的情况(参考图13)相比期待值得到提高。如此,在使用将点电荷作为探头的不变量化特征量的情况下,也能够有效进行医药候选化合物的筛选。

(附录4)

关于附录4所涉及的特征量计算装置,在附录3中,特征量计算部针对由第1点电荷、第2点电荷、第3点电荷、第4点电荷及第5点电荷中的1个以上构成的第1探针和由第1点电荷、第2点电荷、第3点电荷、第4点电荷及第5点电荷中的1个以上构成且与第1探针不同的第2探针计算出第2特征量,不变量化部使用针对第1探针的第2特征量和针对第2探针的第2特征量来计算出第2不变量化特征量。根据附录4的结构,与上述第5方式相同地,能够正确进行基于特征量(第2不变量化特征量)的化合物的比较(药效判定)。

(附录5)

关于附录5所涉及的特征量计算装置,在附录4中,对象结构体指定部指定化合物作为对象结构体,立体结构生成部生成基于多个原子的化合物的立体结构,特征量计算部计算出在三维空间中对探针的如下聚集程度进行定量化而获得的特征量即第3特征量,所述聚集程度为由立体结构生成部生成的化合物的立体结构的周围的探针的聚集程度,且为将1种类以上的单原子离子即第1探针和电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷及零电荷的第5点电荷中的1个以上即第2探针作为探针的聚集程度,不变量化部使用针对第1探针的第3特征量和针对第2探针的第3特征量来计算出第3不变量化特征量。

(附录6)

关于附录6所涉及的特征量计算装置,在附录5中,特征量计算部针对第1探针和第2探针中的至少一个不同的2种类的探针计算出第3特征量,不变量化部使用针对2种类的探针的第3特征量来计算出第3不变量化特征量。根据附录6的结构,与上述第7方式相同地,能够正确进行基于特征量(第3不变量化特征量)的化合物的比较(药效判定)。

(附录7)

附录7所涉及的特征量计算方法具有:对象结构体指定工序,指定由具有化学性质的多个单元结构体构成的对象结构体;立体结构生成工序,针对对象结构体生成基于多个单元结构体的立体结构;及特征量计算工序,计算出在三维空间中对立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,其中,探针包含具有实数电荷且产生范德华力的单个点即第1探针和分开配置具有实数电荷且产生范德华力的多个点的第2探针。根据附录7的结构,与上述第1方式相同地,能够计算出准确表示对象结构体的化学性质的特征量。

(附录8)

关于附录8所涉及的特征量计算方法,在附录7中,第1探针为1种类以上的单原子离子或1种类以上的点电荷(上述第1~第5点电荷),第2探针为1种类以上的多原子离子或偶极子(分开配置第1点电荷和第2点电荷的偶极子)。并且,在对象结构体指定工序中指定化合物作为对象结构体,在立体结构生成工序中生成基于多个原子的化合物的立体结构,在特征量计算工序中,计算出在三维空间中对立体结构生成工序中所生成的化合物的立体结构的周围的第1及第2探针的聚集程度进行定量化而获得的特征量即第4特征量。

(附录9)

关于附录9所涉及的特征量计算方法,在附录7或附录8中,还具有不变量化工序,使第4特征量针对对象结构体的旋转及平移不变量化来计算出第4不变量化特征量。根据附录9的结构,使第4特征量针对化合物的旋转及平移不变量化,因此容易处理第4特征量并且能够减小数据容量。

图33是表示针对附录7~附录9的与图13、图31、图32相同的系统(蛋白质ABL1)对将化合物作为对象结构体的基于不变量化特征量(第4不变量化特征量)的命中的发现容易度进行比较评价的结果的一例的图。该例中,将单体探针即第1探针和复合体探针即第2探针进行组合而作为探针。具体而言,将电荷为+1的点电荷(第1点电荷)和电荷为-1的点电荷(第2点电荷)设为第1探针,并将基于第1点电荷和第2点电荷的偶极子设为第2探针。根据图33,可知与图32相同地,与随机的情况(参考图13)相比期待值得到提高。如此,在使用将单体探针(第1探针)和复合体探针(第2探针)作为探针的不变量化特征量的情况下,也能够有效进行医药候选化合物的筛选。

(附录10)

关于附录10所涉及的特征量计算程序,其使计算机执行附录7至附录9中的任一个所涉及的特征量计算方法。

(附录11)

附录11所涉及的特征量计算装置具备:对象结构体指定部,指定由具有化学性质的多个单元结构体构成的对象结构体;立体结构生成部,针对对象结构体生成基于多个单元结构体的立体结构;及特征量计算部,计算出在三维空间中对立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,其中,探针包含具有实数电荷且产生范德华力的单个点即第1探针和分开配置具有实数电荷且产生范德华力的多个点的第2探针。根据附录10的结构,与上述第1方式相同地,能够计算出准确表示对象结构体的化学性质的特征量。

(附录12)

在附录11中,第1探针为单原子离子或点电荷(上述第1~第5点电荷),第2探针为多原子离子或偶极子(分开配置第1点电荷和第2点电荷的偶极子)。并且,对象结构体指定部指定化合物作为对象结构体,立体结构生成部生成基于多个原子的化合物的立体结构,特征量计算部计算出在三维空间中对由立体结构生成部生成的化合物的立体结构的周围的第1及第2探针的聚集程度进行定量化而获得的特征量即第4特征量。

(附录13)

关于附录13所涉及的特征量计算装置,在附录12中,还具有不变量化部,使第4特征量针对对象结构体的旋转及平移不变量化来计算出第4不变量化特征量。根据附录13的结构,使特征量针对化合物的旋转及平移不变量化,因此容易处理特征量并且能够减小数据容量。

(附录14)

关于附录14所涉及的构建方法,其为接收化合物的特征量(在三维空间中对化合物的周围的探针的聚集程度进行定量化而获得的特征量或使该特征量针对化合物的旋转及平移不变量化的特征量)并输出表示该化合物的立体结构的信息的生成器的构建方法(预测模型的生成方法),所述构建方法具有学习处理工序,针对多个化合物,将学习用数据集输入至生成器并通过机器学习进行学习,所述学习用数据集将表示化合物的立体结构的信息设为教师数据且将通过第1至第7方式中的任一个所涉及的特征量计算方法或附录7至附录9中的任一个所涉及的特征量计算方法计算出的特征量设为解释变量。生成器(预测模型)可以具备层次网络。生成器(预测模型)可以接收三维图像作为表示化合物的立体结构的信息。层次网络(生成器的一例)可以包括进行使用了三维滤波器的卷积运算以缩小特征图(从输入层获得的信息)的卷积层及进行使用了三维滤波器的逆卷积运算以放大特征图的逆卷积层。在学习处理工序中,层次网络可以接收由颜色的不同(例如,使用将红色、绿色、蓝色加权相加的组合)表述构成化合物的原子的种类的三维图像。可以将三维图像分为分别与不同颜色对应的多个通道(例如,红色、绿色、蓝色这3个通道)来接收。并且,在学习处理工序中,层次网络可以将三维图像分为分别与不同种类的原子对应的多个通道来接收。层次网络可以为卷积神经网络。

图34是表示附录14所涉及的层次网络的结构例的图。在图34(a)部分中,层次网络600为包括输入层610、中间层620及输出层630的卷积神经网络。中间层620具备第1中间层622及第2中间层624。第1中间层622包括进行卷积运算的卷积层及进行池化处理的池化层(在图34中,将这些2个层统称为层625),在靠近输入侧的层中进行低阶特征提取,并随着靠近输出侧进行高阶特征提取。在学习时,从输入层610向输出层630更新信息。

第2中间层624包括进行使用了三维滤波器的逆卷积运算的逆卷积层和进行逆池化处理的逆池化层(在图34(a)部分中,将这些2个层统称为层627)。在第1中间层622中,特征图通过卷积运算及池化处理被缩小,并且在第2中间层624中,特征图通过逆卷积运算及逆池化处理被放大。能够通过变更三维滤波器的尺寸等来调节缩小及放大的程度,从而能够获得与由此输入的三维图像相同尺寸的三维信息(在三维空间中对对象结构体的周围的探针的聚集程度进行定量化而获得的特征量)。另外,第1中间层622及第2中间层624中的层(卷积层、池化层、逆卷积层、逆池化层)的数量及组合并无特别限定(在图34中由虚线记载的箭头表示层被省略)。

在使用上述结构的层次网络600的情况下,在学习过程中,优选将输出层630所输出的结果与对图像集的识别(表示探针的聚集程度的特征量)的正解进行比较来计算损失(误差),并进行从输出侧的层向输入侧的层更新中间层620中的权重参数的处理(误差反向传播)以减少损失。另外,中间层620除了卷积层及池化层(以及逆卷积层及逆池化层)以外还可以包括进行批量标准化的层。批量标准化处理为以进行学习时的小批量为单位对数据的分布进行标准化的处理,并且发挥快速进行学习、降低对初始值的依赖性、抑制过度学习等作用。

若上述层次网络600的学习结束,则能够输入化合物的三维图像(表示立体结构的信息)来计算出本发明所涉及的特征量。此时,若将作为实际数据的立体结构信息代替作为学习数据的立体结构信息输入至输入层610,则从输入层610向输出层630(向图34(a)部分中的箭头的方向)更新各层的权重参数等信息,并从输出层630输出特征量。并且,通过使输入与输出相反(向输出层630输入特征量而从输入层610输出三维图像),也能够创建化合物的立体结构。这是将层次网络600用作生成器、预测模型、已学习模型的方式。此时,若将特征量输入至输出层630,则从输出层630向输入层610(向图34的(b)部分中的箭头的方向)更新信息,并从输入层610输出表示化合物的立体结构的三维图像。

(附录15)

关于附录15所涉及的构建方法,其为接收化合物的特征量并输出表示该化合物的结构式的信息的生成器的构建方法(预测模型的生成方法),所述构建方法具有学习处理工序,针对多个化合物,将学习用数据集输入至生成器并通过机器学习进行学习,所述学习用数据集将表示化合物的结构式的信息设为教师数据且将通过第1至第7方式中的任一个所涉及的特征量计算方法计算出的特征量或通过附录7至附录9中的任一个所涉及的特征量计算方法计算出的特征量设为解释变量。在学习处理工序中,生成器能够接收由结构式构成的描述符(能够由文字、数字、符号的组合表述)并输出对探针的聚集程度进行不变量化的特征量。附录15所涉及的生成器能够使用神经网络等层次网络来构成,此时生成器可以包括由全部结合层构成的中间层。在附录15中,能够将能够由结构式构成的描述符(例如Fingerprint描述符)用作“表示结构式的信息”。

图35是表示附录15所涉及的层次网络的结构例的图。在图35(a)部分中,层次网络650包括输入层660、中间层670及输出层680。中间层670具备第1中间层672及第2中间层674(将第1中间层672的各层记载为层675,并将第2中间层674的各层记载为层677)。层次网络650为输入层660、中间层670、输出层680的各层全部结合的神经网络。在第1中间层672中,特征图被缩小,并且在第2中间层674中,特征图被放大。通过调节缩小及放大的程度,能够获得与所输入的信息(描述符)相同尺寸的特征量(不变量化特征量)。另外,第1中间层672及第2中间层674中的层的数量及组合并无特别限定(在图35中由虚线记载的箭头表示层被省略)。

在使用上述结构的层次网络650的情况下,在学习过程中,优选将输出层680所输出的结果与对所输入的描述符的输出(不变量化特征量)的正解进行比较来计算损失(误差),并进行从输出侧的层向输入侧的层更新中间层670中的权重参数的处理(误差反向传播)以减少损失。

若上述层次网络650的学习结束,则能够输入化合物的描述符(能够由结构式构成的描述符)来计算出本发明所涉及的特征量(不变量化特征量)。此时,若输入作为实际数据的描述符来代替作为学习数据的描述符,则从输入层660向输出层680(向图35(a)部分中的箭头的方向)更新各层的权重参数等信息,并从输出层680输出不变量化特征量。并且,通过使输入与输出相反(向输出层680输入不变量化特征量而从输入层660输出描述符),也能够创建表示化合物的立体结构的信息。这是将层次网络650用作生成器、预测模型、已学习模型的方式。此时,若将不变量化特征量输入至输出层680,则从输出层680向输入层660(向图35的(b)部分中的箭头的方向)更新信息,并从输入层660输出化合物的描述符。

(附录16)

附录16为通过附录14或附录15所涉及的构建方法构建的生成器(预测模型、已学习模型)。

(附录17)

关于附录17所涉及的特征量方法,其使用了附录16所涉及的生成器,所述特征量计算方法具有特征量计算工序,将表示化合物的立体结构的信息(例如,三维图像)输入至附录16所涉及的生成器来生成特征量(该化合物的周围的探针的聚集程度)。

(附录18)

关于附录18所涉及的化合物创建方法,其使用了附录16所涉及的生成器,所述化合物创建方法具有立体结构生成工序,将通过第1至第7方式中的任一个所涉及的特征量计算方法或附录7至附录9中的任一个所涉及的特征量计算方法计算出的特征量输入至与该特征量的计算方法对应的生成器来生成表示化合物的立体结构的信息(立体结构、三维图像、三维描述符等)。附录18所涉及的化合物创建方法能够进行与第15或第16方式所涉及的化合物创建方法或附录11至附录13中的任一个所涉及的化合物创建方法相同的处理(化合物的创建)。在学习处理工序中,生成器接收表示立体结构的信息并输出特征量,但是在进行化合物的创建的情况下,使输入与输出相反(向学习处理工序中的输出层输入三维特征量或不变量化特征量而从学习处理工序中的输入层输出三维图像或描述符)。另外,在附录18所涉及的化合物创建方法中,输入特征量的生成器优选为与计算出该特征量的特征量计算方法对应的生成器。例如,在将第1特征量(或第1不变量化特征量)输入至生成器的情况下,该生成器优选为由使用了第1特征量(或第1不变量化特征量)的学习构成的生成器。

符号说明

10-筛选装置,20-化合物创建装置,30-医药候选化合物搜索装置,100-处理部,101-处理部,102-处理部,110-信息输入部,120-特征量计算部,130-相似度计算部,132-生成器构建部,140-化合物提取部,142-化合物立体结构生成部,150-显示控制部,160-CPU,170-ROM,180-RAM,200-存储部,201-存储部,202-存储部,210-结构信息,220-立体结构信息,230-三维AAM描述符,240-不变量化AAM描述符,250-相似度信息,260-化合物提取结果,270-立体结构生成结果,300-显示部,310-显示器,400-操作部,410-键盘,420-鼠标,500-外部服务器,510-外部数据库,600-层次网络,610-输入层,620-中间层,622-第1中间层,624-第2中间层,625-层,627-层,630-输出层,650-层次网络,660-输入层,670-中间层,672-第1中间层,674-第2中间层,675-层,677-层,680-输出层,A1-氨基酸,A2-氨基酸,A3-氨基酸,AA2AR-蛋白质,ABL1-蛋白质,NW-网络,PO-口袋,PS-口袋结构体,S100~S108-特征量计算方法的各步骤,S200~S206-特征量计算方法的各步骤,S300~S304-目标化合物提取方法的各步骤,S400~S404-目标化合物提取方法的各步骤,S500~S504-立体结构创建方法的各步骤,S600~S604-立体结构创建方法的各步骤,TP-目标蛋白质。

72页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于高级脑功能障碍的康复训练系统及图像处理装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!