企业新闻

新手如何开始基因组测序数据分析点击次数:2968 更新时间:2011-11-09

                                            新手如何开始基因组测序数据分析

作为生命科学领域的“圈内人”,如果你还不知晓近期基因组测序的飞速发展,那你就实在太out了。。。这项技术在短短5年时间里,从一种令人仰望的技术变成了实验室里的常规操作,仅仅就去年一年时间,这项技术就应用到了千人基因组计划、人类微生物计划这两项重要的研究项目中,识别了大量孟德尔遗传疾病相关的基因,比如朱伯特综合症(Joubert Syndrome),米勒费雪综合症(Miller Syndrome),还破解了苹果,虱子,以及前段时间侵袭海地的霍乱弧菌的基因组,实力确实不可小窥。

然而由于这一领域的发展速度飞快,因此一些新接触的实验人员可能会感到茫然无措:虽然这些研究人员都具有实体测序实验操作经验,但是如何处理获得的庞大数据是一个巨大挑战。幸运的是,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题,包括大部分新手都会提的一个问题——从那儿开始?以下的这些测序专家会从这一zui常见的新手问题开始,一一帮助我们解答疑惑。

需要什么IT基础设备?

简而言之:视情况而定。测序数据集信息量都很大,但不是所有的数据集都一样,比如说,*基因组测序项目包括原始测序数据,比对数据,变异检出数据等,每个样品都能达到上百GB,而像ChIP-Seq数据集(例如染色体免疫共沉淀实验数据)就小得多了,才几个GB而已。

因此要回答需要多少空间来存储所有数据这个问题,也是视情况而定。弗吉尼亚州立联邦大学生物标记研究及个性化医疗中心有一台2010年早期购买的ABI SOLiD 4测序仪,目前这个中心有大约35TB(即35000GB)的磁盘空间来存储数据,其中一些保存在实验室内,但是大部分实际上都外包了,比如1575个个体甲基化测序数据。中心主任Edwin van den Oord说,“仅仅是实验室里产生的数据不需要这么大的空间”,但即使是35TB的空间还是不够的,“我们需要购买更多的磁盘才能分析这些数据”。来自杜克大学的Kevin Shianna实验室完成了200个*基因组测序,以及另外100个基因组外显子(即蛋白编码区域)测序,目前他们有300TB磁盘空间,而且其中大部分都是满的!

除了磁盘空间外,另外一个关键的元素就是电脑的运作能力,数据文件如此之大,往往不能通过台式机来准确分析,因此需要计算机PC集群(cluster)——一种特别的ad-hoc超级电脑(ad-hoc:电脑到电脑网络),电脑之间通过网络链接,由许多小电脑并联组成。举例而言,杜克大学所用的一种软件工具:Sequence Variant Analyzer(能注释基因变异,以及这些变异在基因组中位置)就是“一个内存怪兽”,Shianna说,“它至少需要24-32GB的内存空间。”

如果没有这些设备该怎么办?

许多高校都提供集群资源服务,但也不是每个都有,对于没有集群设施的研究人员来说,可以寻找一些Web,云模式(cloud-based)为基础的来替代,比如Amazon Web Services,这是一种可以提供基础设施的计算平台服务,包括云计算平台EC2(Elastic Compute Cloud)——拥有几乎无限的计算设施,和云储存服务S3(simple storage service)——提供在线存储服务。每个人都可以在AWS上建立自己的户头,这要求有一台实体的机器,一个计算机界面来连接网络,然后通过Amazon的云服务进行数据分析。

这种付费系统灵活性很大,通过Amazon(或其它的云服务平台,比如Google和Microsoft)完成繁重的高计算量任务,研究人员就能从购买,维修和升级IT设备这些繁杂的事情中脱身,DNAnexus公司总裁Andreas Sundquist说,“我看到Amazon预算好像订了十万个CPU,还有上百个PB(1PB=1000TB)磁盘”,“世界上能接触到这么多计算机和磁盘的地方非常少”,一些无私的研究人员还研发了一种预先组态(preconfigured)生物信息学为基础的虚拟Linux机器,作为一个Amazon镜像系统(Amazon Machine Image),这种打包的服务器环境能运行需要的软件和应用程序,

除此之外,还可以试试宾州的Galaxy (galaxy.psu.edu/),其网页介绍道,“Galaxy能帮助你完成其它任何地方都无法完成的分析,而且无需安装或者下载任何东西,你可以分析多重比对,比较基因组注释,解析宏基因组样品等更多得多的应用”,这一系统包含有大量的文档资料和教程视频,来自凯撒西储大学的Mark Adams将Galaxy称为“一个能整合不同类别数据,查询数据,协调性尤其好的系统”。

对于云计算有更高要求的研究人员就可以尝试下一些商业公司,比如 DNAnexus (dnanexus.com)和GenomeQuest (www.genomequest.com),前者可以通过直接上传,或者联网的测序仪上接收数据,进行变异查找,RNA表达分析和ChIP-Seq分析。Sundquist说,“你不用考虑这些分析在哪里进行,也不用考虑结果存储在哪里,这些DNAnexus云计算都能帮你做到”。这些服务(AWS)的价格是20美元/GB/2年(科研单位),5美元/GB(测序机构)。

电话:
13788993509
13788995069
021-64133189
传真:
021-64129208
陈小姐点击这里给我发消息
徐小姐点击这里给我发消息
朱小姐点击这里给我发消息
 
安全联盟站长平台

化工仪器网

推荐收藏该企业网站