2. 中国科学院大学 北京 100049
2. University of Chinese Academy of Sciences, Beijing 100049, China
地球已经进入到了“人类纪”(Anthropocene),人类的活动给地球的地质、生态系统造成了巨大的影响。全球变暖引起的冻土融化导致已灭绝的病原菌“重见天日”;世界人口持续增长并出现老龄化,据估计,到2020年我国65岁以上老龄人口将达1.67亿,约占全世界的1/4;全球农业生产力已经连续4年低于期望值,如不改观将不能满足地球上不断增长的人口的需求;局部冲突造成难民人数不断增加,从而引发严重的社会及经济危机;犯罪率上升、恐怖袭击、突发事件等严重威胁公共安全;重大慢病严重威胁全民健康,统计数字表明,我国有超过3.4亿的重大慢病患者,平均每分钟有8人被确诊为癌症,5人因癌症而离世。
1.2 生命与健康大数据的机遇 1.2.1 生命与健康大数据飞速增长大数据,尤其是生命与健康大数据,将为应对上述人类社会问题起到积极的作用。生命与健康大数据是指无法在较快的时间内用传统的应用方法处理的庞大、复杂的生命与健康数据集。生命科学领域的基础研究、健康领域均产出大数据。近年来,我国生命健康方面的科技投入持续增强,国家重点研发计划启动了“精准医学研究” “重大慢性非传染性疾病防控” “生殖健康及重大出生缺陷防控研究”等重点专项,预计今后5年我国将产生300 PB以上的基因组数据。国际上,多个国家相继开展不同规模甚至百万人级的基因组测序计划。估计到2025年,全球每年将产出1 ZB的基因组数据[1]。随着健康医疗技术的不断发展,生命健康领域数据的产出越来越多。据估计,平均每个医院每年将产生665 TB的医疗数据;按此计算,仅全国1 300多家三甲医院每年就会积累约850 PB的数据。
1.2.2 健康科学的发展依赖于精准医学大数据现代医学已经发展到基于生物信息大数据的精准医学阶段,这为恶性肿瘤、心脑血管疾病和常见病的防控和治疗提供了革命性的重大历史机遇。通过全基因组测序指导2型糖尿病治疗[2],利用可穿戴设备收集健康大数据[3],采用深度学习等人工智能技术帮助皮肤癌诊断[4],运用多组学大数据整合分析进行癌症精准分型和个性化治疗[5],以及根据DNA中包含的信息推断外貌表型、种族、地域、年龄和生活习惯[6]等,这些只是越来越多的大数据成功应用中的少数案例而已。
2 国内外生命与健康大数据的现状 2.1 国外生命与健康大数据的现状 2.1.1 国外各类基因组测序计划催生了海量的生命与健康大数据1977年,Frederick Sanger发表的双脱氧链终止法标志着测序技术的成熟。1986年,人类基因组计划启动,并于2001年完成了人类基因组草图。2005年,454测序仪出现,下一代测序技术开始投入使用。此后,生命与健康领域的大型测序项目层出不穷,例如美国国家人类基因组研究所(NHGRI)于2003年9月启动了DNA元件百科全书计划(ENCODE Project),其主要任务是鉴定和分析人类基因组中所有功能元件。作为ENCODE项目的补充,2007年美国国立卫生研究院(NIH)启动了路线图表观基因组项目(Roadmap Epigenomics Project),该项目的目标是创建不同细胞类型的参考表观基因组图谱。几乎与此同时,欧洲的Wellcome Trust资助了千人基因组计划(1000-Genome Project)[7]。该计划由欧洲生物信息研究所(EMBL-EBI)于2008—2015年运行,主要目标是寻找在研究的人类群体中出现频率至少为1%的遗传变异。类似地,在2008年初启动的拟南芥1001基因组计划的目的是在至少1001个品系中发现相对于拟南芥参考基因组的序列变异。由美国NHGRI和NIH资助的TCGA计划[8-10]则对数千个肿瘤细胞的基因组、外显子组和转录组进行测序,试图鉴别出驱动癌症发展的公共的基因突变。NIH资助的人类微生物组计划(HMP)对生活在人类肠道和皮肤上的微生物的16S rRNA扩增子组进行测序,以期找到一组核心的、影响人类健康的微生物组。2012年,英国10万人基因组计划启动[11]。而更大的、酝酿了3年的美国政府资助的健康大数据项目100万人基因组计划已于2018年5月20日启动,该项目将建立100万人的健康大数据队列,预计耗资15亿美元,为期10年。
2.1.2 国外形成了完整的生命与健康数据中心布局发达国家政府很早就开始重视生命与健康大数据的收集、分析和应用。早在1988年11月,美国国家医学图书馆(NLM)就意识到了“发展新的信息技术以促进对控制健康和疾病的分子过程的理解”的重要性,把Lister Hill国家生物医学交流中心的一个项目独立出来,成立了美国国家生物技术信息中心(NCBI)。从创立之初,NCBI的职责之一就是收集全世界的生物技术数据。30年来,NCBI不断发展壮大,员工数从20人增加到目前的700余人,美国国会每年拨付的经费由1990年的507.3万美元增加到2014年顶峰时的9 583.3万美元。在这个过程中,NCBI积累了全世界最大的生命与健康数据库(如GenBank、PubMed、SRA、dbGaP等)和软件资源(如BLAST、e-Utilities等),目前数据库中存储的总数据量已达30 PB,每天访问网站的用户有420万,下载数据达60 TB以上,高峰时段的点击量超过每秒7 000次。
欧洲生物信息学研究所(EBI)的前身是1980年在德国海德堡建立的欧洲分子生物学实验室(EMBL)核酸序列数据库。1992年,EMBL在英国Hinxton建立了EBI。EBI最早的数据库只有两个:欧洲核酸归档库(ENA)和蛋白序列资源库(UniProt),而现在EBI已建成世界上最全面的分子生物学数据库集合,其管理的总数据量达12 PB,每月用户数为320万人。EBI目前有员工约600人,2016年运行经费为8 820万美元,主要来自欧盟各国政府,特别是英国政府。
在EMBL和GenBank的邀请下,日本政府成立了日本DNA数据库(DDBJ)。1987年DDBJ发布了DDBJ release 1,标志着该机构开始正式运行。目前,DDBJ的自有数据量约为3 PB,年用户数为268 800人;共有约50名员工,年经费为891万美元,由日本文部省资助。
2005年5月,NCBI、EBI和DDBJ成立了国际核酸序列数据库联盟(INSDC)。INSDC是国际上公共领域数据共享方面最著名的组织之一,其成员每天进行数据交换,每年召开内部会议,讨论有关建立和维护序列存档的问题,并制定了一系列统一的标准和政策。INSDC在国际生命与健康大数据收集上有着巨大的影响力,作为惯例,在主流生物医学期刊发表论文前都要将数据上传到INSDC成员数据库公开。
瑞士生物信息学研究所(SIB)是一个联合瑞士境内生物信息学活动的非营利性学术基金会,成立于1998年。SIB的数据涵盖生命科学的不同领域,包括基因组、蛋白质组、医药健康、进化、结构生物学和系统生物学等。2017年,SIB核心资源被全球约600万用户使用,当年SIB管理的资金总额达到了2 676.5万美元。
在健康大数据领域,Epic是美国最大的电子病历供应商,约有1.9亿的个人用户使用Epic公司的系统储存自己的电子医疗信息。Cerner也是美国最大的电子病历供应商之一,目前,Cerner在全世界35个国家支撑了27 000个不同大小的医疗机构。Google的控股公司Alphabet旗下的DeepMind公司正在使用人工智能看各种医学影像,试图学会那些医生需要花上几年学习获得的经验,从而使机器学会判断病症。
2.2 国内生命与健康大数据的现状 2.2.1 国内各种类型的生命与健康大数据中心相继建成具有代表性的包括:①深圳国家基因库,以自产数据为主,作为节点替EBI收集数据。②上海生物医学大数据中心,以中国科学院上海生命科学研究院自产数据为主,支持数据递交、发布、管理和共享。③微生物资源与大数据中心,以微生物资源库为主,提供微生物资源注册、查询,微生物知识查询等,用户遍布国际微生物领域。④国家人口与健康科学数据共享服务平台,包含约400个医学数据库的访问入口,以医药卫生科学数据为主。⑤全国公安机关DNA数据库[12],于2004年启动,截至2016年5月31日,已有各类数据4 435.8万条,其中违法犯罪人员信息4 071.9万条、现场物证149.8万条;“打拐” DNA数据库,累计录入人员数据59.4万条,DNA数据51.3万条;两库数据总量达到4 487.1万条[12]。⑥北京基因组研究所生命与健康大数据中心[13-15],数据主要来自于用户递交,数据库支持数据递交、管理、发布、共享、检索、下载、在线分析等。该数据库拥有近100个机构的300余数据递交用户,70多个国家和地区的数据访问与下载用户,被40余家国际期刊认可;2018年被生物大数据领域权威期刊Nucleic Acids Research(《核酸研究》)列为与美国NCBI、欧洲EBI齐名的全球核心数据中心[16]。
2.2.2 存在的问题(1)我国缺乏生命健康大数据管理公共平台,数据流失严重。生命健康领域的期刊杂志通常要求论文的递交者把发表的数据在学界认可的数据库公开。由于我国缺乏国家层面自上而下的统一部署和规划,造成数据资源严重流失。据统计,2016年中国大陆第一作者发表的SCI论文有29.06万篇,但其中绝大部分的数据只能被递交到NCBI、EBI等国际知名数据库。据估计,NCBI数据库中25%以上的数据来自中国。
(2)我国缺乏生命健康大数据管理共享机制,形成数据孤岛,利用效率低。过去的十几年里,我国通过项目经费扶持而非国家专项基金支持的形式产出了大量的数据库资源。据基于Database Commons数据库①的最新统计,我国的数据库资源总数位居世界第二;然而,大部分数据库缺少长期维护,严重缺乏深度的人工审编,数据库内容边缘化。这些因素导致大量数据库资源质量不高,利用率低,数据得不到有效共享。缺乏国家级框架的设计与部署导致我国数据库资源小而散,难以培育出处于国际领先地位的大规模优质数据中心。同样基于Database Commons数据库信息统计,我国引用数超过500次的数据库凤毛麟角,超过1 000次的更是为零。
① http://databasecommons.org/.
(3)我国缺乏生命大数据与健康大数据的整合。生命大数据(尤其是组学大数据)与健康大数据通常是由不同主管部门下属的单位产出的。由于部门的分割及利益关系,并且缺少国家顶层的协调和制约,这两大类数据往往脱节,难以形成合力,发挥出最大效果。
3 生命与健康大数据的展望生命与健康大数据是国家人口健康和生物安全的重要基础资源。目前,我国缺少国家级的框架与技术,对资源再利用的顶层设计、协调、管理,数据共享机制,以及长期稳定的经费支持等,这些均是制约我国生命与健康大数据研究发展的主要因素,从而造成我国数据严重流失、主权丢失、安全无法保障、再利用效率极低。因此,亟待加快建设国家级的生命与健康大数据中心,形成国家生物大数据集中管理与共享服务平台。具体来说,就是需要建成具有千万亿次计算能力和EB量级生物大数据储存能力的生物信息基础设施,形成能够有效承接我国生物资源、人口健康、环境与农业等大数据和支撑国家人类遗传资源有效管理的能力;建成以信息科学、生命科学、计算科学、临床医学综合交叉为基础,以云计算、人工智能等先进技术为牵引的一流生物信息平台,形成国际生物信息研究与应用开发中心。
致谢 作者感谢马英克博士对本文的编辑和整理工作。[1] |
Stephens Z D, Lee S Y, Faghri F, et al. Big Data:Astronomical or Genomical?[J]. PLoS Biology, 2015, 13(7): e1002195. DOI:10.1371/journal.pbio.1002195 |
[2] |
Chen R, Mias G I, Li-Pook-Than J, et al. Personal omics profiling reveals dynamic molecular and medical phenotypes[J]. Cell, 2012, 148(6): 1293-1307. DOI:10.1016/j.cell.2012.02.009 |
[3] |
Gao W, Emaminejad S, Nyein H Y Y, et al. Fully integrated wearable sensor arrays for multiplexed in situ perspiration analysis[J]. Nature, 2016, 529(7587): 509-514. DOI:10.1038/nature16521 |
[4] |
Esteva A, Kuprel B, Novoa R A, et al. Dermatologist-level classification of skin cancer with deep neural networks[J]. Nature, 2017, 542(7639): 115-118. DOI:10.1038/nature21056 |
[5] |
Nebbioso A, Tambaro F P, Dell'Aversana C, et al. Cancer epigenetics:Moving forward[J]. PLoS Genet, 2018, 14(6): e1007362. DOI:10.1371/journal.pgen.1007362 |
[6] |
Vogel G. German law allows use of DNA to predict suspects' looks[J]. Science, 2018, 360(6391): 841-842. DOI:10.1126/science.360.6391.841 |
[7] |
Genomes Project Consortium, Abecasis G R, Altshuler D, et al. A map of human genome variation from population-scale sequencing[J]. Nature, 2010, 467(7319): 1061-1073. DOI:10.1038/nature09534 |
[8] |
Cancer Genome Atlas Research Network. Comprehensive genomic characterization defines human glioblastoma genes and core pathways[J]. Nature, 2008, 455(7216): 1061-1068. DOI:10.1038/nature07385 |
[9] |
Cancer Genome Atlas Research Network. Integrated genomic analyses of ovarian carcinoma[J]. Nature, 2011, 474(7353): 609-615. DOI:10.1038/nature10166 |
[10] |
Cancer Genome Atlas Research Network, Weinstein J N, Collisson E A, et al. The Cancer Genome Atlas Pan-Cancer analysis project[J]. Nature Genetics, 2013, 45(10): 1113-1120. DOI:10.1038/ng.2764 |
[11] |
Turnbull C, Scott R H, Thomas E, et al. The 100 000 Genomes Project:Bringing whole genome sequencing to the NHS[J]. BmjBritish Medical Journal, 2018, 361: k1687. |
[12] |
葛百川, 彭建雄, 刘冰. DNA数据库实战应用战法体系与能力建设研究[J]. 刑事技术, 2016, 41(4): 259-264. |
[13] |
BIG Data Center Members. The BIG Data Center:From deposition to integration to translation[J]. Nucleic Acids Research, 2017, 45(D1): D18-D24. DOI:10.1093/nar/gkw1060 |
[14] |
BIG Data Center Members. Database Resources of the BIG Data Center in 2018[J]. Nucleic Acids Research, 2018, 46(D1): D14-D20. |
[15] |
Wang Y, Song F, Zhu J, et al. GSA:Genome Sequence Archive[J]. Genomics Proteomics & Bioinformatics, 2017, 15(1): 14-18. |
[16] |
Rigden D J, Fernandez X M. The 2018 Nucleic Acids Research database issue and the online molecular biology database collection[J]. Nucleic Acids Res, 2018, 46(D1): D1-D7. DOI:10.1093/nar/gkx1235 |