一对加利福利亚双胞胎出生后,他们的父母日益忧心:宝宝们发育缓慢,而且肌张力低。脑部扫描发现,男宝宝可能有大脑麻痹,但女宝宝却有癫痫和震颤。医生们百思不解。多种测试结果都无法确诊两个宝宝究竟出了什么问题。等到孩子们5岁的时候,使用左旋多巴胺——一种帕金森病药物,疗效也非常短暂。
2010年,这对双胞胎14岁了,全基因组筛查终于揭开了谜题。双胞胎编码墨蝶呤还原酶(sepiapterin reductase,一种在神经递质多巴胺和5-羟色胺合成中起作用的酶)的基因存在缺陷。医生因此改变了治疗方案,增加了5-羟色胺的服用。男孩子的行动能力有所加强,女孩也不再出现突发性抽搐了。
这样的故事激起了学界人士使用基因筛查作为诊断工具的兴趣。确实,如果检查能筛出疾病相关的基因突变,这样治疗就更加有的放矢。
但这样的基因测试通常不能为诊断提供多少依据,因为目前的基因测试聚焦于在特定染色体上的特定基因。在类似于双胞胎的案例中,研究者们不得不筛查所有基因,来寻找致病基因。就目前来说,这种检验非常稀少。但一些大规模的研究项目正准备把全基因组筛查加入到常规医学诊断中。
英国对于基因组医学壮志满怀,启动了10万人基因组计划。该计划由12年开始,赢得了英国首相David Cameron的个人支持。该计划投资3亿英镑,对英国国民健康服务中心(National Health Service, NHS)的癌症、少见疾病和传染性疾病病人进行测序。该计划旨在寻找疾病的致病基因,为临床提供更好的诊断工具,为病人提供个性化治疗,最终促进英国基因产业。
John Bell认为,英国卫生医疗系统是国家资金支持的,因此非常适合执行这种大规模的基因组医学实验。Bell是牛津大学(University of Oxford)的医学研究者,同时也是Genomic England公司的董事。Genomic England是英国国民健康服务中心附属的一家公司,是10万人基因组计划的主要实施公司。NHS有非常详细的病人信息,将这些与基因筛查结果联系起来,能更清楚地认识到疾病和基因之间的联系。Bell指出,多种证据表明,全基因组筛查能够帮助诊断和治疗多种疾病,NHS希望能把全基因组筛查作为常规医学手段。
但在这个目标实现以前,10万人基因组计划必须克服几个问题。从这么多人身上提取DNA样本本身就是一件繁琐的事情,除此之外,确定哪些基因突变是致病的,哪些是无害的也是一件棘手的事情。这需要大量的数据、时间,还需要专门的软件来干这些事情。
支持者众多
冰岛是第一个启动大规模全基因组分析计划的国家。很多国家也抱着将疾病和基因联系在一起的美好愿景,加入到了基因组筛查的队伍中。在美国,精准医疗计划打算测试100万志愿者的基因组,而百万老兵项目则计划对百万名老兵进行基因测序。而其他多个国家,包括加拿大、澳大利亚、日本、韩国、新加坡、泰国、以色列、科威特、卡塔尔、比利时、爱森堡和爱沙尼亚也纷纷开展基因筛查项目。
但英国的10万人基因组计划看起来最有希望:它已经成功募集了3500名罕见疾病患者和2000个癌症病人,未来只需要找到75000名志愿者(其实基本都是这些患者的亲属)就够了。罕见疾病患者和他们的家人最后会有5万人。80%的罕见疾病是家族遗传的,因此受影响者(通常是儿童)的基因可以和他血缘最近的亲属的结果进行对比。癌症病人及其家属会组成另外的25000名志愿者。癌症病人的基因组会测两次,和父母的正常细胞进行对比。因此,英国基本已经找齐了他们所需的志愿者。
志愿者们希望,基因筛查结果能让他们更清楚地了解自己的状况。这些信息对于整个病人群体都有重要意义。一个前列腺癌患者的基因组,经过与数据库的对比,可以提供前列腺癌相关的基因信息。医生从这个患者的治疗中,了解到对于具有类似基因的患者采用哪种治疗最为有效。
企业合作者
Genomics England现在正在挑选每一步(从提取DNA到解读基因组)的企业合作者。总部在圣地亚哥的测序仪器生产商Illumina负责测序工作,同时也负责鉴别基因突变。这由Illumina在英国小切斯特福德的分公司进行。但在未来几个月里,计划开始扩大范围时,Illumina计划把测序仪器搬到英国斯顿的维康信托基因组园区(Wellcome Trust Genome Campus)。
Illumina通过高通量测序仪器处理提取的DNA样本,获得小段的碱基片段。这些片段通过电脑计算,重组成连续的序列,然后通过生物信息学,科学家们会把生成的结果和人类参照基因组(由国际基因组参照协会(Genome Reference Consortium)不断更新的人类代表性基因组)进行对比,目的是发现和参照基因组不同的序列片段,也就是突变。
为了鉴别这些突变,Illumina团队使用该公司的Isacc工作流程(一种开源的计算基因组排布和识别变体的工具)。然后,为了鉴别每个基因组的几百个变异中哪一个致病,Genomics England公司会在数据中心收集10万人的基因信息,然后进行分析。但Genomics England还没有决定选择哪个软件来实施这一工作:需要和Illumina和学界一起检验各个软件的可靠性,然后改善现有的识别变体的算法,最后再确定选择哪个软件。
Illumina已经对3000多个样本进行了测序,但每天有更多的样本涌入。Peter Formen,Illumna10万人基因组计划的管理主任表示,针对突变分析,他们打算收集和上报生殖细胞和体细胞NDA中特定位点的的多种变体。变体包括增加或缺少几个核苷酸,或是以一种核苷酸替代了另一种。也可能有结构性的变体,例如一个基因拷贝数变异。
紧接着,每个变体和已有的变体数据库,例如dbSNP库(一个由美国国立卫生研究院(NIH)建立的,针对短基因突变的数据库)进行对比。类似的数据库还有很多,包括:全球千人基因组计划也建立了全球人类基因变异的目录;Exome Aggregation Consortium (ExAC),一个外显子测序数据库(外显子是负责编码蛋白的全部DNA序列);以及ClinVar,NIH建立的变异与相关生理状况的数据库。发现这些变体的作用是下个阶段的任务,各个公司都踊跃申请承担这项任务。2014年春天,Genomics England对全球的基因组阶段专家进行了评价。28家参评公司需要对15个罕见疾病患者和两个健康人的基因,以及同一个病人的10个肿瘤DNA和正常DNA进行分析,然后给出变异注解(确定基因和其蛋白产物)和解读(把基因、蛋白和功能联系在一起)。
表现最佳的公司可以接受一个测试,为8000个志愿者进行基因组解读的工作。Genomics England从28家公司中挑出了表现最佳的4家,这4家需要通过这个测试,并签订协议。这四家公司分别是英国剑桥的Congenica和美国加利福利亚的Omicia,他们会分析罕见疾病患者的基因组;加利福利亚的Nanthealth,他们会分析癌症基因;麻省的Wuxi NextCode公司,他们既要分析罕见疾病又要分析癌症。圣地亚哥的Cypher Genomics公司及其合作伙伴高级技术和防卫公司Lockheed Martin则是候选公司。这些公司此前都有相关领域的从业经验。
所有公司都会使用高效能计算来解读基因数据,并且工作场所都是Genomics England的安全数据中心。目的是提供几乎全自动的服务——解读下一代测序数据目前主要是人工操作,需要花费数小时到数周的时间。据Genomics England生物信息部门的领导Augusto Rendon表示,最忙的时候,每天有200多个基因组的数据需要处理。如果要按时地、不超预算地完成计划,如果想把全基因组测序作为常规诊疗手段,那么人工解读必然无法达到要求。
花落谁家
每个公司都带来了自己的专家团队来完成基因组解读任务。Congenica,是维康信托桑格研究所(Wellcome Trust Sanger Institute)和英国卫生部(Wellcome Trust Sanger Institute)的下属公司,之前一直为NHS提供测序服务。它会分析疾病相关的遗传性和获得性的稀有基因突变。它开发的Sapientia平台已经在“解密发育疾病项目”(Deciphering Developmental Disorders, DDD)中投入使用,对12000名儿童进行基因测序。DDD是迄今为止全世界最大规模的、全国性的、罕见疾病测序项目。Congenicad 首席运营官Tom Weaver表示,这项研究对30%-40%的参与儿童做出了诊断,这些儿童患有无法确诊的出生缺陷或认知缺陷。
美国的Omicia公司在基因组的临床解读上也有很多经验,但它之前使用的是开放源码、开放获取的工具。在10万人基因组计划中,它将会使用Opal的基因解读软件,来预测哪个变体可能导致疾病。该公司的Phevor算法(表型驱动编译本体论重排序工具)能把突变可能与疾病相关的概率,与基因功能现行和信息的数据库相结合。Omicia可利用这一工具将病人的表型(也就是病理表现)也结合起来。Omicia的首席科学家Martin Reese表示,这些高度自动化的工具意味着,Omicia可以避免人工解读信息。这些算法能够把变体归类到已知的致病基因中,这些基因与疾病的联系部分已知,部分仍待证实。随后Opal会把这些结果整合在一起,汇总成报告,帮助医生形成治疗意见。
Cypher Genomics是斯克里普斯研究所(Scripps Research Institute)的下属公司,开发过Mantis基因解读软件。Mantis能够根据变体致病的概率进行排序。Cypher Genomics的首席运营官Adam Simpson表示,根据Mantis的分析结果,科学家们可以优先选择研究的变体对象。
最后要谈到Wuxi NextCode公司了。Wuxi NextCode是冰岛基因公司deCODE的衍生公司。deCODE由Kari Stefansson于1996年创立。Kari Stefansson率先提出,获取全国人民的基因信息,来寻找致病基因的理念。后来deCODE被制药公司Amgen收购时,一帮生信学家和deCODE的前职工创立了Wuxi NextCode。Wuxi NextCODE在2015年1月被中国上海药明康德公司收购。
Wuxi NextCode的结果并不是一张可能引起疾病的突变清单。Wuxi NextCode的首席科学家Jeff Gulcher表示,全球的临床医生和研究人员都可以通过任何网络浏览器,在单个碱基分辨率上实时存储、查看和分析基因数据,并且软件不断更新最新的变异信息。
Gulcher表示,一个典型的问题可能是“我想知道,这到底是不是变异”。这意味着,需要寻找患有相同罕见疾病的个体,看看他是否也有相同的突变体。总有一天,医生可能想知道癌症病人是否有类似的变体和病程发展,同时想了解过去十年的此类病人采用的治疗。Gulcher表示,Wuxi NextCODE的Genomically Ordered Rela -tional Database数据库可以完美地实现这类需求。
另一方面,基因学家可能需要比较20个基因组,每个有一百万个变体。他需要知道的是,哪个是致病变体。Wuxi NextCODE的数据库根据基因位置来显示变体,从而不需要对所有基因从头到尾进行比较分析,提高处理效率。Wuxi NextCode的首席运营官Hannes Smarason表示,该平台非常适应处理大量信息,例如30万冰岛人的基因组信息。
Nanthealth是私营企业,主攻癌症基因组信息的计算分析,为临床治疗提供指导。Nanthealth拒绝提供信息,但它的主页上显示,该公司分析了超过2万个基因样本。该公司由医生和生物医学研究者Patrick Soon-Shiong创立。Patrick Soon-Shiong还是一个基金会的主席,该基金会致力于消除医疗资源不平等,并支持研究。同时他还是一个非营利性研究机构的负责人,该研究结构致力于促进电子分子诊断。他研发了抗癌药物Abraxane,该药物能够治疗多种癌症。
对于Genomics England来说,整个项目旨在为临床提供指导。但在把结果反馈给医生和家属之前,科学家和医生们需要先仔细研究这些数据。Genomics England 募集了2000名专攻13种罕见疾病和10种癌症的医生和科学家,来完成质量检验工作。同时他们也需要研究项目成果,特别是审查基因和疾病的联系是否明确。他们会通过细胞检验和小鼠实验来研究变体是如何影响和诱发疾病的,这些信息都会汇总到10万人基因组计划。一些结果可通过数据库很快证实,而另一些结果则需要通过文献、软件和实验来谨慎验证。
Bell表示,NHS并不以技术创新出名,但Genomics England可能会改变这一形象。10万人基因组计划对整个基因领域造成了重大影响。它将提供很多商业和学术机会,甚至有可能实现将基因组运用到临床上,从而造福全人类的伟大目标。
原文检索:
Vivien Marx. (2015) The DNA of a nation. Nature, 524(7565): 503-505.