一种长非编码rna的癌症相关可变剪接数据库系统

文档序号:1298343 发布日期:2020-08-07 浏览:27次 >En<

阅读说明:本技术 一种长非编码rna的癌症相关可变剪接数据库系统 (Cancer-related alternative splicing database system of long non-coding RNA ) 是由 刘伦旭 邓雨岚 于 2020-05-22 设计创作,主要内容包括:本发明涉及生物医学领域,公开了一种长非编码RNA的癌症相关可变剪接数据库系统,以便于帮助研究人员更好理解癌症中lncRNA可变剪接的作用。本发明包括搜索模块、可视化模块以及文件交互模块:搜索模块用于根据用户输入的与长非编码RNA相关的搜索条件,从系统的数据区搜索出长非编码RNA在指定癌症中的剪接信息,并将搜索结果通过可视化模块展现给用户;当用户点击可视化模块展示中的搜索结果,可获得更详细的可视化信息和注释信息;其中,可视化信息包括剪接图、三文鱼图、箱式图和基因组浏览器;文件交互模块用于提供文件上传功能,以及搜索结果的下载和调用功能。本发明适用于癌症研究。(The invention relates to the field of biomedicine, and discloses a database system for long non-coding RNA (ribonucleic acid) related alternative splicing of cancer, which is used for helping researchers to better understand the alternative splicing effect of IncRNA in cancer. The invention comprises a searching module, a visualization module and a file interaction module: the search module is used for searching splicing information of the long non-coding RNA in the specified cancer from a data area of the system according to a search condition which is input by a user and is related to the long non-coding RNA, and displaying a search result to the user through the visualization module; when a user clicks a search result displayed by the visualization module, more detailed visualization information and annotation information can be obtained; wherein the visual information comprises a splice graph, a salmon graph, a box graph and a genome browser; the file interaction module is used for providing a file uploading function and a downloading and calling function of the search result. The invention is suitable for cancer research.)

一种长非编码RNA的癌症相关可变剪接数据库系统

技术领域

本发明涉及生物医学领域,特别涉及一种长非编码RNA(lncRNA)的癌症相关可变剪接数据库系统。

背景技术

癌症中异常的可变剪接模式与诸多致癌过程相关,例如去分化和转移。因此,Ryan等人开发了一个记录癌症中蛋白编码基因可变剪接的数据库,名叫TCGA SpliceSeq,网址为http://bioinformatics.mdanderson.org/TCGASpliceSeq。该数据库收集了TCGA中33种癌症的组织RNA测序数据,利用软件包SpliceSeq,识别其中蛋白编码基因的可变剪接信号,结果插入比(Percent-splicing in,PSI,Ψ)来表示。用户可以搜索感兴趣蛋白编码基因的可变剪接信号,比较其在不同癌症中的差异,以及在癌症组织和正常组织的差异。该数据库对剪接模式提供可视化,并提供支持读段、PSI等统计信息。用户也可以从数据中下载相关数据,进行后续整合分析。但是该数据库存在以下缺点:

1.该数据库仅包含癌症中蛋白编码基因可变剪接的信息,没有包含癌症中长非编码RNA可变剪接的信息。

2.该数据可以仅提供基于组织的剪接信号,没有提供基于单细胞的剪接信号,因此会受到癌症异质性的影响。

发明内容

本发明要解决的技术问题是:提供一种长非编码RNA的癌症相关可变剪接数据库系统,以便于帮助研究人员更好理解癌症中lncRNA可变剪接的作用。

为解决上述问题,本发明采用的技术方案是:一种长非编码RNA的癌症相关可变剪接数据库系统,包括搜索模块、可视化模块以及文件交互模块;

所述搜索模块用于根据用户输入的与长非编码RNA相关的搜索条件,从系统的数据区搜索出长非编码RNA在指定癌症中的剪接信号,并将搜索结果通过所述可视化模块展现给用户;其中,数据区中的剪接信号来源于组织块的测序数据和单细胞的测序数据;

当用户点击可视化模块展示中的搜索结果,可获得更详细的可视化信息和注释信息;其中,可视化信息包括剪接图、三文鱼图、箱式图和基因组浏览器,剪接图用于全局展示单个长非编码RNA基因的外显子和连接读段的信号强弱;三文鱼图用于展示具体剪接事件在不同分组间的局部信号差异;箱式图可用于展示具体剪接事件在不同疾病或组织中的信号差异;所述基因组浏览器从多角度展示剪接序列的潜在功能影响,包括蛋白质结合位点、RNA结合位点和功能元件信息;注释信息包括长非编码RNA的基本注释信息、剪接事件的基本注释信息和剪接序列的相关文献报道;

所述文件交互模块用于提供文件上传功能,以及搜索结果的下载和调用功能。

具体的,所述搜索条件可包括lncRNA名称、基因组位座、组织类型、癌症类型、可变剪接类型、癌症细胞系名、剪接ID中的一种或者多种。

具体的,系统数据区的剪接信号涉及了多种情况下的长非编码RNA的剪接信号,包括癌症患者、癌症细胞系和人源肿瘤异种移植模型(Patient-Derived tumor Xenograft,PDX)。

本发明的有益效果如下:通过本发明的数据库系统,用户可以从lncRNA名称、癌症类型、可变剪接类型和基因位座等多个角度搜索感兴趣lncRNA在特定癌症中的剪接信号,或利用逻辑连接符进行批量搜索。为了让用户更好地理解剪接信号,该数据库对于所有剪接事件提供剪接图可视化,对于差异剪接事件提供三文鱼图进行可视化。为了帮助用户探索癌症中lncRNA可变剪接的功能影响,该数据库提供了整合蛋白质结合位点、RNA结合位点和功能元件的基因组浏览器。用户还可以利用blast将自己感兴趣的序列和lncRNA剪接调控的序列进行比对,比较多个癌症中lncRNA可变剪接的差异,或通过生存分析结果评估lncRNA剪接对于癌症患者预后的影响。最后,用户可以通过文件交互模块下载数据库的结果文件,利用文件交互模块提供的应用程序接口(Application Programming Interface,API)的方式批量对数据库中内容进行调用,或者上传自己的数据进行比较分析。因此,本发明的数据库系统是一个系统的癌症相关lncRNA可变剪接的数据库,该数据库能够帮助研究人员更好理解癌症中lncRNA可变剪接的作用,为癌症机制研究和相关生物标志物的开发提供参考。

附图说明

图1是LncAS2cancer的内容和功能示意图。

图2是数据库首页图。

图3是LncAS2cancer的查询方式图。

图4是LncAS2cancer的查询结果说明图。

具体实施方式

实施例提供了一种长非编码RNA的癌症相关可变剪接数据库系统,名为LncAS2cancer,该数据库系统包括搜索模块、可视化模块以及文件交互模块;

所述搜索模块用于根据用户输入的与长非编码RNA相关的搜索条件,从系统的数据区搜索出长非编码RNA在指定癌症中的剪接信号,并将搜索结果通过所述可视化模块展现给用户;

其中,数据区中的剪接信号来源于组织块的测序数据和单细胞的测序数据,上述的搜索条件可包括lncRNA名称、基因组位座、组织类型、癌症类型、可变剪接类型、癌症细胞系名、剪接ID中的一种或者多种。数据区的剪接信号涉及了多种情况下的长非编码RNA的剪接信号,包括癌症患者、癌症细胞系和人源肿瘤异种移植模型(Patient-Derived tumorXenograft,PDX)。

当用户点击可视化模块展示中的搜索结果,可获得更详细的可视化信息和注释信息;其中,可视化信息包括剪接图、三文鱼图、箱式图和基因组浏览器,剪接图用于全局展示单个长非编码RNA基因的外显子和连接读段的信号强弱;三文鱼图用于展示具体剪接事件在不同分组间的局部信号差异;箱式图可用于展示具体剪接事件在不同疾病或组织中的信号差异;所述基因组浏览器从多角度展示剪接序列的潜在功能影响,包括蛋白质结合位点、RNA结合位点和功能元件信息;注释信息包括长非编码RNA的基本注释信息、剪接事件的基本注释信息和剪接序列的相关文献报道;

所述文件交互模块用于提供文件上传功能,以及搜索结果的下载和调用功能。

为了构建这个数据库系统,我们首先从3个数据库中下载癌症的组织和单细胞RNA测序数据。这些RNA测序样本既包括没有分组信息的均一癌症样本,也包括条件特异的样本,如癌症正常配对样本、基因敲除前后的癌症细胞系样本、用药前后的癌症样本和不同细胞定位的癌症样本等。而这3个数据库分别为Sequence Read Archive(SRA,网址为https://www.ncbi.nlm.nih.gov/sra/),Encyclopedia of DNA Elements(ENCODE,网址为https://www.encodeproject.org/),和Cancer Cell Line Encyclopedia(网址为CCLE,https://portals.broadinstitute.org/ccle/)。对于SRA数据库,我们利用SRA Toolkit软件的prefetch工具下载SRA文件,利用fasterq-dump工具将SRA转化成FSASTQ格式。

对于组织水平的RNA测序(bulk RNA sequencing),首先利用STAR软件的两步策略将其比对到人类参考基因组hg38中,即第一步比对中识别未注释的外显子接合区域,将这些外显子接合区域整合入参考基因组中,进行第二步比对,这样可以提高识别剪接事件的敏感性。随后,我们利用不同的软件系统地识别不同的可变剪接类型。我们利用rMATS识别外显子跳跃、5’可变剪接、3’可变剪接、内含子保留和互斥外显子;利用Dapars识别可变转录终止事件;利用SEASTAR识别可变转录起始事件;利用MAJIQ识别复杂的剪接事件。对于rMATS,我们要求不小于8个支持读段。对于MAJIQ识别的可变剪接,为了让其结果与基于rMATS的结果可比较,故利用spliceSites软件提取位于外显子接合区域的支持读段,要求样本支持读段的中位值不小于10,并利用rMATS-STAT计算显著性。对于Dapars和SEASTAR,这两个软件仅基于覆盖外显子的读段,而不利用外显子接合区域的读段,但是lncRNA的部分外显子会和其他转录本有重叠,故仅对起始外显子或终止外显子不与其他转录本有交集的lncRNA识别可变剪接。基于rMATS和MAJIQ结果用插入比(Percent-splicing in,PSI,Ψ)来表示,基于Dapars和SEASTAR的结果用远端外显子利用比例(Percentage of DistalUsage Index,PDUI)来表示。对于单细胞水平的RNA测序(single cell RNA sequencing),首先利用scater进行质控,去除线粒体RNA含量过高、总读段过少和基因数过少的样本,阈值均为中位绝对偏差大于3。随后,对通过质控的样本进行STAR两步比对。利用BRIE进行剪接识别、定量和差异计算

为了帮助用户形象地理解lncRNA可变剪接的信号,我们利用剪接图对所有的剪接事件进行可视化,利用三文鱼图比较不同分组中显著差异的可变剪接。在剪接图中,我同时计算了每个外显子的RPKM(Reads Per Kilobase per Million mapped reads,每兆匹配读段每kb长度的支持读段)和每个外显子接合区的RPMG(Reads Per Million Gapped,每兆间断中的支持读段),前者利用HTseq软件进行计算,后者利用spliceSites软件进行计算。对于显著差异的可变剪接事件,组织水平测序的阈值为P<0.05,ΔPSI/PDUI>0.05,而单细胞水平测序的阈值为Bayesian factor>10。三文鱼图用rmats2sashimiplot进行绘制。对于组织水平的样本,我们绘制每组平均值,用于比较组间差异;单细胞测序的优势在于消除异质性的影响,不适合用平均值的方式表示,然而每个单细胞测序研究的样本较多,因此我们对于每一组样本仅展示5个样本。

为了帮助用户理解癌症中lncRNA可变剪接的潜在功能影响,我们对显著差异的可变剪接事件进行序列注释和生存分析。注释包括整合其他数据资源的高通量注释和手工文献注释,其中高通量注释整合的数据资源有UCSC(基因组元件注释)、Poster2(lncRNA与蛋白质互作)和StarBasev3(lncRNA与miRNA互作)。手工文献注释是指人工阅读文献,查找lncRNA可变剪接影响的功能序列是否与文献中记录的功能序列一致。我们要求该文献是研究lncRNA在癌症中的作用,并明确指出功能序列(如与蛋白质或miRNA的结合位点),而且对功能序列的记录至少满足以下条件之一:(1)明确指出功能序列在人类基因组hg18,hg19或hg38中的坐标信息;(2)记录功能序列在lncRNA中的碱基坐标,并提供具体序列。对于第一种情况,利用liftover将hg18或hg19坐标信息转化为hg38;对于第二种情况,利用代码将lncRNA的碱基坐标转换成lncRNA的序列信息,并比较该序列信息是否与文献中记录一致,以排除由于不同注释系统导致的偏差。除了功能注释,我们还对显著差异的lncRNA可变剪接进行生存分析,首先利用cox单因素分析其PSI或PDUI是否与患者预后显著相关,然后利用log-rank检验比较以中位值分组的生存差异,并对于cox分析和log-rank分析均显著,且每组样本量不少于10个事件绘制Kaplan-Meier生存曲线。

LncAS2cancer由XAMPP搭建(涉及Apache,mariaDB,php和perl)。我们利用Bootstrap设计网页界面;利用AJAX和jQuery UI可视化和分析数据;利用Echart和Genoverse进行交互可视化。

实施例最终得到的数据库系统LncAS2cancer,收录了30余种癌症中5113个组织测序样本和2315个单细胞测序样本,涉及4145个lncRNA的49266个剪接事件,基本统计信息如表1。

表1.LncAS2cancer的基本统计信息

数据内容 总条目
lncRNA基因 4145
lncRNA转录本 28468
研究数据集 268
可变剪接事件 49266
测序样本 7428
组织类型 39
癌症类型 233
癌症细胞系 982

用户可以从lncRNA名称、癌症类型、可变剪接类型和基因位座等多个角度搜索感兴趣lncRNA在特定癌症中的剪接信号,或利用逻辑连接符进行批量搜索。为了让用户更好地理解剪接信号,该数据库对于所有剪接事件提供剪接图可视化,对于差异剪接事件提供三文鱼图进行可视化。为了帮助用户探索癌症中lncRNA可变剪接的功能影响,该数据库提供了整合蛋白质结合位点、RNA结合位点和功能元件的基因组浏览器。用户还可以利用blast将自己感兴趣的序列和lncRNA剪接调控的序列进行比对,比较多个癌症中lncRNA可变剪接的差异,或通过生存分析结果评估lncRNA剪接对于癌症患者预后的影响。最后,用户可以下载数据库的结果文件,利用应用程序接口(Application Programming Interface,API)的方式批量对数据库中内容进行调用,或者上传自己的数据进行比较分析。因此,LncAS2cancer是一个系统的癌症相关lncRNA可变剪接的数据库系统,该数据库系统能够帮助研究人员更好理解癌症中lncRNA可变剪接的作用,为癌症机制研究和相关生物标志物的开发提供参考。

以下再通过对上述LncAS2cancer的具体使用方式,对本发明做进一步说明。

进入LncAS2cancer之后,其系统首页如图2所示。LncAS2cancer可提供多种查询癌症中lncRNA可变剪接的方式,如图3所示。首先,用户可以通过导航栏进行快捷搜索(查询1),其效果与搜索部分的基本搜索(查询2)一致,可以从lncRNA名字、基因组位座、组织类型、癌症类型、可变剪接类型、癌症细胞系名和剪接ID等多个角度进行搜索,或者批量搜索(查询6)。同时,用户也可以点击高级搜索中的人体图(查询3),针对感兴趣的组织类型进行快捷搜索。另外,用户还可以利用逻辑连接符筛选剪接事件(查询4)。若用户有感兴趣的序列,希望能够知道是否存在lncRNA可变剪接影响的序列与该序列一致,可以通过blast的方式进行序列比对(查询5)。该数据库还提供应用程序接口(查询7),便于外部程序调用相关数据。

以lncRNA TUG1为例,在基本搜索中输入TUG1,出现如图4的表格(结果1),展示所有TUG1在癌症中的可变剪接,记录剪接ID、剪接类型、研究ID、分组信息、lncRNA名和癌症类型等信息,可以通过工具栏改变展现方式,并下载表格信息。第一条信息是显著差异的剪接事件,故点击plot,可以展现三文鱼图(结果2)。进一步,点击剪接ID,可进入详细的结果界面。结果界面分多个板块,首先提供lncRNA的基本注释信息(结果3),用以了解该lncRNA的背景知识;随后可以看到剪接图(结果4),可以帮助理解剪接的信号强度;接着箱式图可以比较该剪接在癌症之间的信号差异(结果5),帮助用户判断其是否存在癌症特异性;为了帮助用户理解该lncRNA的可变剪接的功能影响,结果中提供基因组浏览器(结果6)和文献注释信息(结果7)。

综上,LncAS2cancer是一个系统的癌症相关lncRNA可变剪接的数据库,该数据库能够帮助研究人员查询各个癌症中的可变剪接事件,比较不同癌症之间的信号差异,通过基因组浏览器和文献注释推测可变剪接的潜在功能,为癌症机制研究和相关生物标志物的开发提供参考。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:定量化石英H_2O-CO_2-NaCl体系水热流体成矿过程的理论模型及方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!