结构搜索方法、结构搜索设备和记录介质

文档序号：587542 发布日期：2021-05-25 浏览：44次 >En<

阅读说明：本技术 结构搜索方法、结构搜索设备和记录介质 (Structure search method, structure search device, and recording medium ) 是由佐藤博之于 2020-11-03 设计创作，主要内容包括：提供了结构搜索方法、结构搜索设备和记录介质。结构搜索方法包括：通过计算机在三维晶格空间的多个晶格点中的每个晶格点处顺序地布置n个化合物基团,以在三维晶格空间中创建化合物的三维结构,n个化合物基团在化合物中彼此耦联；以及通过对基于针对每个晶格点的约束条件而变换的伊辛模型执行使用退火方法的基态搜索来计算伊辛模型的最小能量,该约束条件包括：n个化合物基团中的每个化合物基团被布置在仅一个晶格点处的第一约束；n个化合物基团在每个晶格点处彼此不交叠的第二约束；以及第三约束,其与n个化合物基团的耦联相关并且在不满足该约束时增加所计算的伊辛模型的能量。(A structure search method, a structure search apparatus, and a recording medium are provided. The structure searching method comprises the following steps: sequentially arranging, by a computer, n compound groups at each of a plurality of lattice points of a three-dimensional lattice space to create a three-dimensional structure of a compound in the three-dimensional lattice space, the n compound groups being coupled to each other in the compound; and calculating a minimum energy of the Esin model by performing a ground state search using an annealing method on the Esin model transformed based on a constraint condition for each lattice point, the constraint condition including: a first constraint that each compound group of the n compound groups is disposed at only one lattice point; a second constraint that the n compound groups do not overlap each other at each lattice point; and a third constraint that relates to the coupling of the n compound groups and that increases the energy of the calculated Esino model when the constraint is not satisfied.)

结构搜索方法、结构搜索设备和记录介质

技术领域

本文讨论的实施方式涉及结构搜索方法、结构搜索设备和记录介质。

背景技术

近年来，在诸如药物发现的场景中，可能无法避免通过使用信息处理设备(计算机)来获得具有大尺寸的分子的稳定结构。然而，例如，在诸如蛋白质的大尺寸分子的情况下，在仔细考虑所有原子的计算中可能难以在实际时间内搜索到稳定结构。

因此，已经研究了通过粗略捕获分子的结构(粗粒化)来减少计算时间的技术。

作为粗粒化分子结构的技术，例如，已经研究了以下技术：在该技术中，基于蛋白质中氨基酸残基的一维序列信息使分子结构经过粗粒化成为线性(一连串)简单立方晶格结构，并将其作为晶格蛋白质处理。已经报道了通过使用量子退火技术在晶格蛋白中高速搜索稳定结构的技术。

在使用退火机在晶格蛋白中搜索稳定结构的这样的技术中，难以同时满足多个约束条件，并且难以高效地搜索稳定结构。

相关技术公开在例如R.Babbush等人的“Construction of Energy Functionsfor Lattice Heteropolymer Models:A Case Study in Constraint SatisfactionProgramming and Adiabatic Quantum Optimization”,Advances in Chemical Physics,155,201-244,2014年4月4日。

在一方面中，实施方式的目的在于提供能够高效地搜索稳定结构的结构搜索方法、结构搜索程序和结构搜索设备。

发明内容

根据实施方式的方面，一种结构搜索方法包括：通过计算机在三维晶格空间的多个晶格点中的每个晶格点处顺序地布置n个化合物基团，以在三维晶格空间中创建化合物的三维结构，n个化合物基团在化合物中彼此耦联；以及通过对基于针对晶格点中的每个晶格点的约束条件而变换的伊辛模型执行使用退火方法的基态搜索，来计算伊辛模型的最小能量，约束条件包括：n个化合物基团中的每个化合物基团被布置在仅一个晶格点处的第一约束；n个化合物基团在晶格点中的每个晶格点处彼此不交叠的第二约束；以及第三约束，其与n个化合物基团的耦联相关，并且当不满足该约束时增加所计算的伊辛模型的能量。

在实施方式的一个方面中，可以提供用于搜索稳定结构的结构搜索方法、结构搜索程序和结构搜索设备。

附图说明

图1A是示出蛋白质被粗粒化以搜索稳定结构的示例的示意图(部分1)。

图1B是示出蛋白质被粗粒化以搜索稳定结构的示例的示意图(部分2)。

图1C是示出蛋白质被粗粒化以搜索稳定结构的示例的示意图(部分3)。

图2A是用于说明菱形编码(diamond encoding)方法的示例的示意图(部分1)。

图2B是用于说明菱形编码方法的示例的示意图(部分2)。

图2C是用于说明菱形编码方法的示例的示意图(部分3)。

图2D是用于说明菱形编码方法的示例的示意图(部分4)。

图2E是用于说明菱形编码方法的示例的示意图(部分5)。

图3是用于说明H_one的示例的图。

图4是用于说明H_olap的示例的图。

图5是用于说明H_conn的示例的图。

图6是用于说明H_pair的示例的图。

图7是用于说明第三约束的示例的图。

图8示出了本文公开的结构搜索设备的示例的框图。

图9是示出本文公开的结构搜索设备的配置示例的图。

图10是示出本文公开的结构搜索设备的另一配置示例的图。

图11是示出本文公开的结构搜索设备的另一配置示例的图。

图12是示出用于搜索蛋白质的稳定结构的方法的示例的流程图。

图13是示出由S_r表示半径为r的每个晶格的情况的图。

图14A是示出氨基酸残基的目的地的晶格点集的图(部分1)。

图14B是示出氨基酸残基的目的地的晶格点集的图(部分2)。

图14C是示出氨基酸残基的目的地的晶格点集的图(部分3)。

图14D是示出氨基酸残基的目的地的晶格点集的图(部分4)。

图15是以三维示出S₁、S₂、S₃的图。

图16A是示出其中将空间信息分配给位X₁至位X_n中的每一位的状态的示例的图(部分1)。

图16B是示出其中将空间信息分配给位X₁至位X_n中的每一位的状态的示例的图(部分2)。

图16C是示出其中将空间信息分配给位X₁至X_n中的每一位的状态的示例的图(部分3)。

图17是用于说明H_one的图。

图18是用于说明H_olap的图。

图19A是用于说明H_pair的图(部分1)。

图19B是用于说明H_pair的图(部分2)。

图20是示出权重文件的示例的图。

图21是示出在退火方法中使用的优化设备(控制单元)的功能配置的示例的图。

图22是示出转变控制单元的电路层面的示例的框图。

图23是示出转变控制单元的操作流程的示例的图。

图24是结构搜索设备的存储单元的数据配置示例。

图25是对应于图24的数据配置示例的处理流程。

具体实施方式

首先，在描述本文公开的技术的细节之前，将描述通过作为使用晶格蛋白质的技术之一的菱形编码方法来获得蛋白质的折叠结构的方法。

当使用晶格蛋白质搜索蛋白质(或肽)的结构时，首先，蛋白质被粗粒化。如图1A所示，例如，通过将构成蛋白质的原子2粗粒化成为经粗粒化的粒子1A、1B和1C，从而创建粗粒化模型来执行对蛋白质的粗粒化，经粗粒化的粒子1A、1B和1C中的每一个是用于每个氨基酸残基的单元。

接着，使用所创建的粗粒化模型来搜索稳定结合结构。图1B示出经粗粒化的粒子1C位于箭头的终点处的结合结构为稳定的情况的示例。通过稍后描述的菱形编码方法搜索稳定结合结构。

如图1C所示，基于通过使用菱形编码方法搜索的稳定结合结构将粗粒化模型恢复为全原子模型。

菱形编码方法是将形成蛋白质的链氨基酸上的经过粗粒化的粒子(粗粒化模型)嵌入到菱形晶格的晶格点的方法，并且可以表达三维蛋白质结构。

在以下描述中，为了简化说明，将作为示例来描述用于二维情况的菱形编码方法。

图2A示出其中具有五个彼此结合的氨基酸残基的线性五肽具有线性结构的结构的示例。在图2A至图2E中，圆圈中的编号表示线性五肽中的氨基酸残基的编号。

在菱形编码方法中，首先，当编号为1的氨基酸残基布置在菱形晶格的中心处时，如图2B所示，编号为2的氨基酸残基可以被布置的位置被限制在邻近中心的位置(给出编号2的位置)。

随后，将与编号为2的氨基酸残基结合的编号为3的氨基酸残基可以被布置的位置被限制在与图2B中给出编号2的位置邻近的位置(图2C中给出编号3的位置)。

将与编号为3的氨基酸残基结合的编号为4的氨基酸残基可以被布置的位置被限制在与图2C中给出编号3的位置邻近的位置(图2D中给出编号4的位置)。

将与编号为4的氨基酸残基结合的编号为5的氨基酸残基可以被布置的位置被限制在与图2D中给出编号4的位置邻近的位置(图2E中给出编号5的位置)。

通过将如此指定为可布置位置的位置按照氨基酸残基的编号的顺序连接，可以表达蛋白质的粗粒化结构。

通过对基于关于蛋白质的粗粒化结构的约束条件而变换的伊辛模型执行使用退火方法的基态搜索来计算伊辛模型的最小能量。通过这样做，可以获得蛋白质的稳定结构。

当H_one、H_olap、H_conn被设置成约束条件并且H_pair被设置为成本函数时，可以如下表示菱形编码方法中的总能量。

E(x)＝H＝H_one+H_olap+H_conn+H_pair

H_one表示蛋白质包括第一氨基酸残基至第n氨基酸残基中的每个氨基酸残基的仅一个实例的约束。

H_olap表示第一氨基酸残基至第n氨基酸残基彼此不交叠的约束。

H_conn表示第一氨基酸残基至第n氨基酸残基彼此连接的约束。

H_pair表示表达氨基酸残基之间的相互作用的成本函数。

关于哈密顿函数(H_one)，在如图3所示存在两个氨基酸残基的情况下，由如下公式(A)表示的哈密顿函数(H_one)为正。换句话说，在有两个氨基酸残基的情况下，根据该约束条件的哈密顿函数(H_one)增加总能量。

H_one+＝C₁q_iq_j 公式(A)

C₁是加权系数，并且是正整数。q_i取“1”或“0”，q_j取“1”或“0”。

关于哈密顿函数(H_olap)，在如图4所示特定氨基酸残基在特定晶格点处交叠的情况下，由如下公式(B)表示的哈密顿函数(H_olap)为正。换句话说，在特定氨基酸残基在特定晶格点处交叠的情况下，根据该约束条件的哈密顿函数(H_olap)增加总能量。

H_olap+＝C₂q_iq_j 公式(B)

C₂是加权系数，并且是正整数。q_i取“1”或“0”，q_j取“1”或“0”。

关于哈密顿函数(H_conn)，在如图5所示两个相邻氨基酸残基连接的情况下，由如下公式(C)表示的哈密顿函数(H_conn)为负。换句话说，在邻近的两个氨基酸残基连接的情况下，根据该约束的哈密顿函数(H_conn)降低总能量。

H_conn-＝C₃q_iq_j 公式(C)

C₃是加权系数，并且是正整数。q_i取“1”或“0”，q_j取“1”或“0”。

关于哈密顿函数(H_pair)，在如图6所示两个邻近氨基酸残基彼此相互作用的情况下，由如下公式(D)表示的哈密顿函数(H_pair)为正。换句话说，在邻近的两个氨基酸残基相互作用的情况下，根据该约束条件的哈密顿函数(H_olap)增加总能量。

H_pair+＝E₁₄q_iq_j 公式(D)

E₁₄是与相互作用相关的系数，并且是正整数。q_i取“1”或“0”，q_j取“1”或“0”。该相互作用通过两个氨基酸残基的组合来确定，并且该相互作用参考例如Miyazawa-Jernigan(MJ)矩阵来确定。

当不满足相应的约束时，H_one和H_olap增加总能量。换句话说，H_one和H_olap是当不满足相应的约束时使蛋白质结构不稳定的约束。

而通常，H_conn在不满足约束时降低总能量。换句话说，H_conn是当不满足约束时使蛋白质结构稳定的约束。

因此，H_one和H_olap与H_conn之间的关系是非独立的，并且当满足一个约束时，不太可能满足另一个约束。作为结果，难以高效地搜索稳定的结构。

因此，利用所公开的技术，使H_one和H_olap与H_conn之间的关系是独立的，并且所有约束都可能被满足。换句话说，当使用所公开的技术时，可能同时满足多个约束条件。作为结果，当使用所公开的技术时，可以高效地搜索稳定的结构。

(结构搜索方法和结构搜索设备)

本文公开的结构搜索方法是用于搜索其中n个化合物基团耦联的化合物的稳定结构的方法。

结构搜索方法是使用计算机的方法。

该结构搜索方法包括创建三维结构的处理和计算最小能量的处理，并且根据需求还包括另外的处理。

本文公开的结构搜索设备包括创建三维结构的单元和计算最小能量的单元，并且根据需求还包括另外的单元。

结构搜索设备包括例如存储器和处理器，并且根据需要还包括另外的单元。

处理器耦接至存储器。

处理器用于执行创建三维结构的处理。

处理器用于执行计算最小能量的处理。

处理器例如是中央处理单元(CPU)、图形处理单元(GPU)或中央处理单元和图形处理单元的组合。

在创建三维结构的处理中，在作为晶格集的三维晶格空间的每个晶格点处顺序地布置n个化合物基团，以在三维晶格空间中创建化合物的三维结构。

用于创建三维结构的单元在作为晶格集的三维晶格空间的每个晶格点处顺序地布置n个化合物基团，并且在三维晶格空间中创建化合物的三维结构。

化合物基团是例如氨基酸残基。

在化合物基团是氨基酸残基的情况下，化合物的示例包括蛋白质。

要作为氨基酸残基的来源的氨基酸可以是天然氨基酸或人工氨基酸。天然氨基酸的示例包括丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、蛋氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸、缬氨酸、β-丙氨酸、β-苯丙氨酸等。人工氨基酸的示例包括对羟苯甲酰基苯丙氨酸等。

蛋白质中的氨基酸残基的数目没有特别限制且可以根据目的适当地选择，并且例如，可以是约10至30个，或可以是数百个。

例如，只要蛋白质是用于中等分子药物发现的目标的蛋白质，则数目可以是约10至30个。

接着，在计算最小能量的处理中，对基于针对每个晶格点的约束条件而转换的伊辛模型执行使用退火方法的基态搜索，从而计算伊辛模型的最小能量。

用于计算最小能量的单元对基于针对每个晶格点的约束条件而转换的伊辛模型执行使用退火方法的基态搜索，从而计算伊辛模型的最小能量。

约束条件包括第一约束、第二约束和第三约束。

第一约束是n个化合物基团中的每一个被布置在仅一个晶格点处。

第二约束是n个化合物基团在每个晶格点处彼此不交叠。

第三约束是与n个化合物基团的耦联相关的约束，并且是当不满足约束时增加所计算的伊辛模型的能量的约束。

第三约束例如是由以下(1)和(2)表示的约束。

(1)在特定晶格点处存在化合物基团的情况下，在与该晶格点邻近的所有晶格点中的仅一个晶格点处存在化合物基团。

(2)在特定晶格点处不存在化合物基团的情况下，在与该晶格点邻近的所有晶格点处均不存在化合物基团，或者在与该晶格点邻近的所有晶格点中的仅一个晶格点处存在化合物基团。

第三约束的示例可以由以下公式(E)表示。该示例是使用菱形编码方法的二维情况的示例。

H+＝C(Q-q₀)(Q-1)

在该公式中，C是加权系数，并且是正整数。q₀、q₁、q₂、q₃和q₄中每一个取“1”或“0”。q₀、q₁、q₂、q₃和q₄的位置关系为图7中所示的位置关系。

η(q₀)是表示邻近q₀并耦联至q₀的化合物基团的位的集合。

q₀为“1”的情况是在特定晶格点处存在化合物基团的情况。在q₀为“1”的情况下，仅当Q为“1”时H为“0”。在图7所示的位置关系的情况下，当q₁+q₂+q₃+q₄＝1时，Q为“1”。换句话说，是q₁、q₂、q₃和q₄中的仅一个为“1”的情况。因此，在邻近特定晶格点的所有晶格点中的仅一个晶格点处存在化合物基团情况下，H为“0”。

q₀为“0”的情况是在特定晶格点处不存在化合物基团的情况。在q₀为“0”的情况下，当Q为“0”时或当Q为“1”时H为“0”。在图7所示的位置关系的情况下，在q₁+q₂+q₃+q₄＝0或1的情况下，H为“0”。换句话说，在q₁、q₂、q₃和q₄全部都为“0”的情况下，或者在q₁、q₂、q₃和q₄中仅一个为“1”的情况下，H为“0”。因此，在邻近特定晶格点的任何晶格点处均不存在化合物基团的情况下，或者在邻近该特定晶格点的所有晶格点中的仅一个晶格点处存在化合物基团的情况下，H为“0”。

图8示出了所公开的结构搜索设备的示例的框图。

图8的结构搜索设备10包括用于创建三维结构的单元51和用于计算最小能量的单元52。

图9示出了所公开的结构搜索设备的配置示例。

结构搜索设备10例如以经由系统总线18耦接控制单元11、存储器12、存储单元13、显示单元14、输入单元15、输出单元16、I/O接口单元17等的方式来配置。

控制单元11是执行算术运算(四则算术运算、比较运算等)、硬件和软件的操作控制等的处理器。

存储器12是诸如随机存取存储器(RAM)、只读存储器(ROM)等的存储器。RAM存储从ROM和存储单元13读出的操作系统(OS)、应用程序等，并且用作控制单元11的主存储器和工作区。

存储单元13是用于存储各种程序和数据的装置，并且例如是硬盘。存储单元13存储要由控制单元11执行的程序、要用于执行程序的数据、OS等。

程序被存储在存储单元13中，被加载到存储器12的RAM(主存储器)中，并通过控制单元11被执行。

显示单元14是显示装置，并且例如是诸如CRT监视器、液晶面板等的显示设备。

输入单元15是用于各种数据的输入装置，并且例如是键盘、定点装置(例如，鼠标等)等。

输出单元16是用于各种数据的输出装置，并且例如是打印机。

I/O接口单元17是用于耦接各种外部装置的接口。例如，I/O接口单元17允许光盘只读存储器(CD-ROM)、数字多功能盘只读存储器(DVD-ROM)、磁光(MO)盘、通用串行总线(USB)存储器等的数据的输入和输出。

图10示出了所公开的结构搜索设备的另一配置示例。

图10的配置示例是云型配置示例，并且包括参照图9描述的元件11至18，且控制单元11独立于存储单元13等。在该配置示例中，存储存储单元13等的计算机30和存储控制单元11的计算机40经由网络接口单元19和20耦接。

网络接口单元19和20是使用因特网执行通信的硬件。

图11示出了所公开的结构搜索设备的另一配置示例。

图11的配置示例是云型配置示例，并且包括参照图9描述的元件11至18，且存储单元13独立于控制单元11等。在该配置示例中，存储控制单元11等的计算机30以及存储存储单元13的计算机40经由网络接口单元19和20耦接。

下文中，将参照流程图等描述所公开的技术的示例。

图12是用于搜索蛋白质的稳定结构的流程图。

<步骤S101>

首先，基于氨基酸残基的数目(n)限定三维晶格空间，该三维晶格空间是其中顺序布置多个氨基酸残基的晶格集(S101)。

现在将描述限定三维晶格空间的示例。晶格空间是三维的，但是在下文中，为了简化而描述二维的情况。

首先，菱形晶格空间中具有半径r的晶格集被称为壳(Shell)，并且每个晶格点被表示为S_r。每个晶格点S_r可以如图13所示来表示。

例如，第一氨基酸残基至第五氨基酸残基的目的地的晶格点的集合V₁至V₅如图14A至图14D所示。在图14A至图14D中，V₁至V₅的字符V被省略，并且仅显示数字下标。

在图14A中，V₁＝S₁，V₂＝S₂。

在图14B中，V₃＝S₃。

在图14C中，V₄＝S₂或S₄。

在图14D中，V₅＝S₃或S₅。

如图15所示以三维来表示S₁、S₂和S₃。在图15中，A＝S₁，B＝S₂，以及C＝S₃。

在具有n个氨基酸残基的蛋白质中第i个氨基酸残基所需的空间V_i通过以下公式来表示。

在奇数(i＝奇数)氨基酸残基的情况下，J＝{1，3，.....i}，以及在偶数(i＝偶数)氨基酸残基的情况下，J＝{2，4，.....i}。

<步骤S102>

接着，将第i个氨基酸残基的目的地的晶格点集设置为V_i(S102)。

限定氨基酸残基进入的空间。

<步骤S103>

接下来，将位分配给每个晶格点。换句话说，将空间信息分配给位X₁至X_n中的每一个(S103)。具体而言，如图16A至图16C所示，将位分配给每个氨基酸残基进入的空间，分别地，在该位置存在氨基酸残基的情况下位由“1”表示以及在该位置不存在氨基酸残基的情况下位由“0”表示。在图16A至图16C中，多个X_i被指定给相应的氨基酸残基2至4，但是在实践中，一个位X_i被指定给一个氨基酸残基。

<步骤S104>

接下来，设置H_one、H_olap、H_conn以及H_pair以创建伊辛模型，该伊辛模型基于针对每个晶格点的约束条件被转换(S104)。

在菱形编码方法中，整个能量可以表示如下。

E(x)＝H＝H_one+H_olap+H_conn+H_pair

H_one表示蛋白质包括第一氨基酸残基至第n氨基酸残基中的每个氨基酸残基的仅一个实例的约束(第一约束)。

H_olap表示第一氨基酸残基至第n氨基酸残基彼此不交叠的约束(第二约束)。

H_conn表示第三约束。

H_pair是表示氨基酸之间的相互作用的成本函数。

H_one、H_olap和H_pair的示例如下。

在下述的图17至图19A和图19B中，X₁表示编号为1的氨基酸残基可以被布置的位置。

X₂至X₅表示编号为2的氨基酸残基可以被布置的位置。

X₆至X₁₃表示编号为3的氨基酸残基可以被布置的位置。

X₁₄至X₂₉表示编号为4的氨基酸残基可以被布置的位置。

下面描述H_one的示例。

在上面的函数中，X_a和X_b取“1”或“0”。换句话说，在图17中，H_one是X₂、X₃、X₄和X₅中仅一个为“1”，因此在它们中任意两个或更多个为“1”的情况下能量增加的函数，并且是在X₂、X₃、X₄和X₅中仅一个为“1”的情况下H_one为0的惩罚项。

在上述函数中，λ_one是加权系数。

下面描述H_olap的示例。

在上面的函数中，X_a和X_b取“1”或“0”。换句话说，在图18中，H_olap是当X₂为“1”时X₁₄为“1”的情况下生成惩罚的项。

在上面的函数中，λ_olap是加权系数。

下面描述H_pair的示例。

在上面的函数中，X_a和X_b取“1”或“0”。换句话说，在图19A和图19B中，H_pair是在X₁₅为“1”的情况下当X₁为“1”时，相互作用P_{ω(x1)ω(x15)}在X₁处的氨基酸残基与X₁₅处的氨基酸残基之间起作用以引起能量降低的函数。通过两个氨基酸残基的组合来确定相互作用P_{ω(x1)ω(x15)}，并且例如参照Miyazawa-Jernigan(MJ)矩阵等来确定相互作用P_{ω(x1)ω(x15)}。

第三约束(H_conn)是对n个化合物基团的耦联的约束，并且是当不满足该约束时增加所计算的伊辛模型的能量的约束。

第一约束和第二约束在不满足相应约束时增加总能量。换句话说，第一约束和第二约束是在不满足相应约束时使蛋白质的结构不稳定的约束。

当不满足第三约束时，增加总能量。第三约束是在不满足第三约束时使蛋白质结构不稳定的约束。

在第三约束是在不满足该约束时降低总能量的约束的情况下，第一约束和第二约束与第三约束之间的关系是非独立的，并且当满足一个约束时，另一个约束不太可能被满足。因此，难以高效地搜索稳定的结构。

然而，在所公开的技术中，第三约束是在不满足该约束时增加总能量的约束。因此，第一约束和第二约束与第三约束之间的关系变得独立，由此，所有约束都可能被满足。换句话说，可以通过同时满足多个约束条件来高效地搜索稳定的结构。

第三约束例如是由以下(1)和(2)表示的约束。

(1)在特定晶格点处存在化合物基团的情况下，在与该晶格点邻近的所有晶格点中的仅一个晶格点处存在化合物基团。

(2)在特定晶格点处不存在化合物基团的情况下，在与该晶格点邻近的所有晶格点处不存在化合物基团，或者在与该晶格点邻近的所有晶格点中的仅一个晶格点处存在化合物基团。

接着，与上面的相应函数中的加权系数(例如，λ_one、λ_olap、λ_conn、λ_pair等)对应的通过使用以下伊辛模型的能量方程的计算而提取和优化的权重文件是例如矩阵，并且在2X₁X₂+4X₂X₃的情况下是如图20所示的矩阵的文件。

通过使用所创建的权重文件，可以表示伊辛模型的以下能量方程。

在上述函数中，状态X_i和X_j为“0”或“1”，并且“0”意指不存在氨基酸残基，“1”意指存在氨基酸残基。右侧第一项中的W_ij是加权系数。

右侧的第一项表示针对可从所有电路中选择的两个电路的所有组合的无丢失或冗余计数的两个电路的状态与加权值的乘积之和。

右侧的第二项表示所有电路的状态与各个偏置值的乘积之和。b_i表示第i电路的偏置值。

<步骤S105>

接着，在退火机中，对基于针对每个晶格点的约束条件而转换的伊辛模型执行使用退火方法的基态搜索，从而计算伊辛模型的最小能量(S105)。

退火机不受特别限制，只要其是采用退火方法对通过伊辛模型表示的能量函数执行基态搜索的计算机即可，并且可以根据目的适当地选择。退火机的示例例如包括量子退火机、使用半导体技术的半导体退火机以及用于执行要通过软件使用CPU或图形处理单元(GPU)等执行的模拟退火的机器。作为退火机，例如可以使用数字退火器(DigitalAnnealer)(注册商标)。

下面将描述退火方法和退火机的示例。

退火方法是通过使用随机数值或量子位的叠加随机地获得解的方法。下文中，将使要被优化的评估函数的值最小化的问题作为示例进行描述，并且将评估函数的值称为能量。当评估函数的值被最大化的情况下，可以改变评估函数的符号。

首先，从向每个变量指定一个离散值的初始状态开始，基于当前状态(变量的值的组合)，选择接近当前状态的状态(例如，变量中的仅一个已经被改变的状态)，并且检查该状态转变。计算与状态转变相关联的能量改变，并且根据计算出的值，随机地确定是采用状态转变并改变当前状态还是保持原始状态而不采用状态转变。当将引起能量下降的状态转变的采用概率设置为大于引起能量上升的状态转变的采用概率时，状态变化沿平均起来能量下降的方向发生，并且因此可以预期随着时间的流逝状态被转变到更合适的状态。因此，有可能最终可以获得最优解或使得能量接近最优值的近似解。

当以确定性方式采用引起能量下降的状态转变并且不采用引起能量上升的状态转变时，能量改变随着时间大体上单调下降，但是一旦达到局部解，就不会发生进一步的变化。由于如上所述离散优化问题中存在非常大量的局部解，因此在许多情况下，状态被卡在不是非常接近最优值的局部解处。因此，在求解离散优化问题时，重要的是确定是否随机地采用状态。

在退火方法中，已经证明，当状态转变的采用(接受)概率如下进行确定时，状态在无限时间(迭代次数)的极限处达到最优解。

在下文中，将按顺序描述使用退火方法确定最优解的方法。

对于与状态转变相关联的能量改变(能量降低)值(-ΔE)，状态转变的接受概率p通过下列函数f()中的任何函数来确定。

p(ΔE，T)＝f(-ΔE/T) (公式1-1)

f_metro(x)＝min(1，e^x)(美特罗波利斯方法) (公式1-2)

T是被称为温度值的参数，并且例如，可以进行如下改变。

(2)如以下等式所表示，温度值T相对于迭代次数t被对数地减小。

T₀表示初始温度值，并且期望根据问题被设置足够大的值。

在使用由公式(1)表示的接受概率的情况下，如果在足够的迭代次数之后达到稳定状态，则对于热力学中的热平衡状态，每个状态的占有概率遵循玻尔兹曼分布。

由于当温度从高初始温度逐渐降低时，较低能量状态的占有概率增加，因此假定当温度充分降低时获得低能量状态。该方法被称为退火方法(或模拟退火方法)，因为这种性能类似于对材料进行退火时的状态变化。引起能量上升的状态转变的随机发生对应于物理学中的热激发。

图21示出用于执行退火方法的优化设备的功能配置的示例。虽然在以下描述中也将描述生成用于状态转变的多个候选的情况，但是在基本退火方法中逐个生成转变候选。

优化设备100包括状态保持单元111，该状态保持单元11保持当前状态S(多个状态变量的值)。优化设备100还包括能量计算单元112，能量计算单元112在由于多个状态变量的值中的任何值的改变而发生从当前状态S的状态转变的情况下，计算相应状态转变的能量改变值{-ΔEi}。优化设备100还包括控制温度值T的温度控制单元113和控制状态改变的转变控制单元114。

转变控制单元114根据能量改变值{-ΔEi}与基于温度值T、能量改变值{-ΔEi}以及随机数值的热激发能量之间的相对关系，随机地确定是否接受多个状态转变中的任一状态转变。

转变控制单元114包括用于生成用于状态转变的候选的候选生成单元114a，以及用于根据每个候选的能量改变值{-ΔEi}和温度值T随机地确定是否针对该候选接受状态转变的接受确定单元114b。转变控制单元114包括用于从所接受的候选中确定要采用的候选的转变确定单元114c，以及用于生成概率变量的随机数生成单元114d。

优化设备100中的一次迭代中的操作如下。

首先，候选生成单元114a生成用于从状态保持单元111所保持的当前状态S到下一状态的状态转变的一个或多个候选(候选数字{Ni})。接着，能量计算单元112通过使用当前状态S和针对状态转变的候选，针对被列为候选的状态转变中的每一个来计算能量改变值{-ΔEi}。接受确定单元114b根据每个状态转变的能量改变值{-ΔEi}，使用由温度控制单元113生成的温度值T和由随机数生成单元114d生成的概率变量(随机数值)，以通过上述公式(1)获得的接受概率来接受状态转变。

接受确定单元114b输出对相应状态转变的接受{fi}。在接受多个状态转变的情况下，转变确定单元114c通过使用随机数值来随机选择多个状态转变中的一个状态转变。然后，转变确定单元114c输出所选择的状态转变的转变编号N和转变接受f。在存在接受的状态转变的情况下，根据所采用的状态转变，更新存储在状态保持单元111中的状态变量的值。

从初始状态开始，在使温度控制单元113降低温度值的同时重复上述迭代处理，并且当达到一定的迭代次数时，或者当满足结束确定条件例如能量变得低于预定值的条件时，操作结束。优化设备100输出的解是操作结束时的状态。

图22是用于逐个生成候选的正常退火方法中的转变控制单元，尤其是接受确定单元所需的算法部分的配置示例的电路级框图。

转变控制单元114包括随机数生成电路114b1、选择器114b2、噪声表114b3、乘法器114b4和比较器114b5。

选择器114b2从针对各个状态转变的候选计算出的能量改变值{-ΔEi}中，选择并输出与作为由随机数生成电路114b1生成的随机数值的转变编号N对应的能量改变值。

稍后将描述噪声表114b3的功能。例如，可以使用诸如RAM、闪存等的存储器作为噪声表114b3。

乘法器114b4输出通过将从噪声表114b3输出的值乘以温度值T获得的乘积(对应于上面描述的热激发能量)。

比较器114b5输出通过将乘法器114b4输出的乘法结果与选择器114b2选择的能量改变值-ΔE进行比较而获得的比较结果作为转变接受f。

尽管图22所示的转变控制单元114基本上照原样实现了上述功能，但是将更详细地描述以通过公式(1)所表示的接受概率来接受状态转变的机制。

可以通过以下比较器来实现分别以接受概率p和(1-p)输出1和0的电路，该比较器具有两个输入端A和B，以使得接受概率p被输入至输入端A，并且取区间[0，1)中的值的均匀随机数被输入至输入端B的方式，当A＞B时输出1，当A＜B时输出0。因此，通过将利用公式(1)基于能量改变值和温度值T计算的接受概率p的值输入至比较器的输入端A，可以实现上述函数。

换句话说，当假设f是公式(1)中使用的函数并且u是取区间[0，1)中的值的均匀随机数时，可以通过在f(ΔE/T)大于u时输出1的电路来实现上述函数。

通过以下改变可以实现与上面描述相同的函数。

即使当允许相同的单调递增函数对两个数起作用时，这两个数也保持相同的大小关系。因此，即使当允许相同的单调递增函数对比较器的两个输入起作用时，也获得相同的输出。当采用f的反函数f^-1作为该单调递增函数时，可以看出，可以提供当-ΔE/T大于f^-1(u)时输出1的电路。由于温度值T为正，因此可以看出，当-ΔE大于Tf^-1(u)时输出1的电路是合适的。

图22中的噪声表114b3是用于实现反函数f^-1(u)的转换表，并且是用于关于通过将区间[0，1)离散化而获得的输入来输出以下函数的值的表。

尽管转变控制单元114设置有保持确定结果等的锁存器、生成对应定时的状态机等，但是为了简化图示，它们未在图22中示出。

图23是示出转变控制单元114的操作流程的示例的图。图23所示的操作流程包括选择一个状态转变作为候选的步骤(S0001)，将状态转变的能量改变值与温度值和随机数值的乘积进行比较以确定是否接受状态转变的步骤(S0002)，以及当接受状态转变时采用状态转变而当不接受状态转变时不采用状态转变的步骤(S0003)。

<步骤S106>

在S106中，输出计算结果。结果可以作为蛋白质的三维结构图或构成蛋白质的每个氨基酸残基的坐标信息输出。

图24是示出结构搜索设备的存储单元的数据配置示例。

图25示出了与数据配置示例相对应的处理流程。

在图25所示的处理流程中，首先，在S201中，构建第一约束。这里的第一约束表示如下。

<第一约束>

H[1][k][I]＝L[1]*X[k]*X[I]

随后，在S202中，构建第二约束。这里的第二约束表示如下。

<第二约束>

H[2][AB[i]+k，_{0＜＝k＜VB[i]]，0＜i＜＝NP}][AB[j]+k，_{0＜＝k＜VB[i]，i＜j＜＝NP}]

＝L[2]*X[AB[i]+k]*X[AB[j]+k]

随后，在S203中，构建第三约束。这里的第三约束表示如下。

<第三约束>

H[3]+＝L[3]*∑_i[{∑_j(X[j])-X[i]}{∑_j(X[j])-1}]

随后，在S204中，构建基于两个邻近化合物基团之间的相互作用的成本函数。这里的成本函数表示如下。

<成本函数>

H[4][AB[i]+k，_{0＜＝k＜VB[i]}][AB[jj]+I，_{0＜＝I＜VB[j]，i+2＜j}]

＝EPQ[i][j]*ADJ[i][j]*X[AB[i]+k]*X[AB[j]+I]

随后，在S205中，在退火机中，使用所构建的第一约束、第二约束、第三约束和成本函数，对基于针对每个晶格点的约束条件而变换的伊辛模型执行使用退火方法的基态搜索。将所获得的能量存储在存储单元的E中，并且将所获得的结构存储在存储单元中。

关于所公开的结构搜索方法中的第三约束，例如，相关技术中的哈密顿函数(H_conn)被表示如下。

H[3][AB[i]+k，_{0＜＝k＜VB[i]，0＜＝i＜NP}][AB[i+1]+I，_{0＜＝I＜VB[i+1]，0＜＝i＜NP}]

＝-L[3]*∑(ADJ(AB[i]+k，AB[i+1]+I)*X[AB[i]+k]*X[AB[i+1]+I])

(程序)

所公开的结构搜索程序是使计算机执行所公开的结构搜索方法的程序。

在结构搜索程序中，执行结构搜索方法的方面与所公开的结构搜索方法中的方面相同。

可以根据要使用的计算机系统的配置以及操作系统的类型、版本等使用各种已知的程序语言来创建程序。

程序可以被记录在诸如内部硬盘或外部硬盘的记录介质上，或者可以被记录在诸如光盘只读存储器(CD-ROM)、数字通用盘只读存储器(DVD-ROM)、磁光(MO)盘或通用串行总线(USB)存储器(USB闪存驱动器)的记录介质上。在程序被记录在诸如CD-ROM、DVD-ROM、MO盘、USB存储器等的记录介质上的情况下，该程序可以直接通过包括在计算机系统中的记录介质读取装置来使用，或者可以根据目的通过被安装在硬盘上来使用。该程序可以记录在可通过信息通信网络从计算机系统访问的外部存储区域(另一计算机等)中，并且还可以通过信息通信网络从外部存储区域直接使用，或者可以根据目的通过安装在硬盘上来使用。

程序可以通过针对每个任意处理被划分而记录在多个记录介质中。

(记录介质)

所公开的记录介质记录所公开的结构搜索程序。

所公开的记录介质是计算机可读的。

所公开的记录介质可以是暂态的或非暂态的。

所公开的记录介质是例如记录用于使计算机执行所公开的结构搜索方法的程序的记录介质。

记录介质不被特别限制，并且可以根据目的适当地选择，并且其示例包括，例如，内部硬盘、外部硬盘、CD-ROM、DVD-ROM、MO盘、USB存储器等。

记录介质可以是多个记录介质，其中，针对每个任意处理划分并记录程序。

[实验示例]

在下文中，将描述本实施方式的具体实验示例。

(比较示例1)

根据图12的流程图执行Chignolin蛋白质的粗粒化晶格模型的稳定结构搜索。

将H_one，H_olap，H_conn设置为约束条件，并且将H_pair设置为成本函数。菱形编码方法中的总能量可以表示如下。

E(x)＝H＝H_one+H_olap+H_conn+H_pair

H_one表示蛋白质包括第一氨基酸残基至第n氨基酸残基中的每个氨基酸残基的仅一个实例的约束。

H_olap表示第一氨基酸残基至第n氨基酸残基彼此不交叠的约束。

H_conn是第一氨基酸残基至第n氨基酸残基彼此连接的约束。

H_pair是表示氨基酸残基之间的相互作用的成本函数。

在设置约束条件的三个参数的216个可用模式中(在每个参数取5至30中的5的整数倍的值的情况下)，仅两个模式能够搜索最稳定的结构。

针对两个模式中的每一个，使用退火机将用于300,000次退火迭代的搜索执行20次，并且作为获得E(x)的最小值的结果，仅有一次达到最稳定的结构。

(实验示例1)

根据图12的流程图，以与比较示例1相同的方式执行Chignolin蛋白质的粗粒化晶格模型的稳定结构搜索，不同之处在于比较示例1中的H_conn被所公开技术中的第三约束所代替。

第三约束是由下述(1)和(2)表示的约束。

(1A)在特定晶格点处存在氨基酸残基的情况下，在邻近该晶格点的所有晶格点中的仅一个晶格点处存在氨基酸残基。

(2)在特定晶格点处不存在氨基酸残基的情况下，在邻近该晶格点的任何晶格点处均不存在氨基酸残基，或仅在邻近该晶格点的所有晶格点中的者一个晶格点处存在氨基酸残基。

在设置约束条件的三个参数的所有216个可用模式(在每个参数取5至30中的5的整数倍的值的情况下)，都能够搜索最稳定的结构。

针对216个模式中的每一个，使用退火机将用于300,000次退火迭代的搜索执行20次，并且作为获得E(x)的最小值的结果，所有模式都达到最稳定的结构。

根据比较示例1与实验示例1之间的比较，证实了所公开的技术能够高效地搜索稳定的结构。

36页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：分子杂交方法及平台

结构搜索方法、结构搜索设备和记录介质

相关技术

网友询问留言