中国生物多样性大数据平台建设
马克平1 , 朱敏2 , 纪力强3 , 马俊才4 , 郭庆华1 , 欧阳志云5 , 朱丽1     
1. 中国科学院植物研究所 北京 100093;
2. 中国科学院古脊椎动物与古人类研究所 北京 100044;
3. 中国科学院动物研究所 北京 100101;
4. 中国科学院微生物研究所 北京 100101;
5. 中国科学院生态环境研究中心 北京 100085
摘要:生物多样性大数据资源是国家重要战略资源,也关乎国家生态安全和生态文明建设。中国生物多样性大数据平台将包括基于宏观与微观生物生态数据协同整合的大数据库和大数据深度挖掘与模型模拟运算库,支持生物多样性和生态系统多源数据整合和共享的标准以及数据集成应用的方法,实现古生物化石数据与遗传组学数据、生理与性状数据、物种多样性、生态系统多样性等跨学科数据融合,与地理、气象、遥感、环境、国民经济等跨领域数据整合,形成完整的共享数据集或栅格化图集。利用分析模型和可视化技术实现对多源生物多样性数据集的挖掘和利用,构建开放开源的生物多样性大数据处理利用的通用接口,建立一个以生物多样性和生态安全为核心的包括对海量数据进行有效管理、高效分析和可用易用的综合大数据系统,面向政府部门提供标准化、可视化服务,促进我国生物多样性资源保护和生态安全格局构建,保障国家生态安全,支撑我国生物多样性交叉学科前沿领域科学发现和产业创新发展。
关键词生物多样性大数据    生态安全    数据共享    数据挖掘    决策支持    
Establishing China Infrastructure for Big Biodiversity Data
MA Keping1, ZHU Min2, JI Liqiang3, MA Juncai4, GUO Qinghua1, OUYANG Zhiyun5, ZHU Li1     
1. Institute of Botany, Chinese Academy of Sciences, Beijing 100093, China;
2. Institute of Vertebrate Paleontology and Paleoanthropology, Chinese Academy of Sciences, Beijing 100044, China;
3. Institute of Zoology, Chinese Academy of Sciences, Beijing 100101, China;
4. Institute of Microbiology, Chinese Academy of Sciences, Beijing 100101, China;
5. Research Center for Eco-Environmental Sciences, Chinese Academy of Sciences, Beijing 100085, China
Author: MA Keping  Professor of Institute of Botany, Chinese Academy of Sciences (IBCAS).He is the Deputy Director and Secretary-General of Biodiversity Committee of the Chinese Academy Sciences, Chair of the IUCN Asia Regional Members Committee, Vice Chair of Experts Committee on World Natural Heritage of the Ministry of Housing and Urban-Rural Development of China, Vice Chair of National Natural Reserve Review Committee of State Forestry and Grassland Administration of China.He is one of the scientists who initiated biodiversity research in China and has been playing a critical role in Chinese biodiversity research and international cooperation.Dr.Ma initiated the Asia Biodiversity Conservation and Database Network (ABCDNet).He took the lead to establish the Chinese Forest Biodiversity Monitoring Network (CForBio) and China Biodiversity Observation and Research Network (Sino BON).Dr.Ma cooperated with German, Swiss and Chinese colleagues, in establishing a manipulation experiment platform of forest Biodiversity-Ecosystem Functioning (BEF-China) to explore the effects of biodiversity loss on ecosystem functions and services.He initiated digitization of specimens in China, set-up of NSII (National Specimen Information Infrastructure), CVH (Chinese Virtual Herbarium) and Catalogue of Life-China, and so on.Dr.Ma has rich experiences and has achieved a lot in the field of biodiversity science, has published more than 340 academic papers, of which over 160 papers were published in international journals.E-mail:kpma@ibcas.ac.cn
Corresponding author: MA Keping
Abstract: Biodiversity is not only important strategic resource, but also the safeguard to the ecological security and success of the development of ecological civilization. Gathering "big data" of biological sciences at different levels, the in-depth data mining and novel discoveries stemmed from cross disciplines will switch life sciences to the new data-intensive science paradigm, and eventually leads to the change of the way how life system should be understood, and how biodiversity resources should be utilized sustainably. Therefore, to establish an infrastructure for the big biodiversity data in China is urgently needed. This infrastructure incorporates big biodiversity data from both macro and micro scales, and integrates data services and data mining system. It incorporates in-depth data mining tools, simulation models, standards for compiling and sharing data of biodiversity and ecosystems. In this system, the big data from palaeontology and genomics, diversity of species and ecosystems are well integrated. The datasets from geography, climatology, remote sensing, environmental and social sciences, and economics are also included as a comprehensive visualized big data platform being available to the public. It could be used to promote sound decision making for biodiversity conservation and ecological security in China. These services will also contribute greatly to the advancement of biodiversity science, the industrial innovation and development, providing fundamental information for fulfilling the national obligations in implementing the Convention on Biological Diversity, the prevention and control of invasive alien species and the monitoring of international trade of wildlife, and so on.
Keywords: big biodiversity data     ecological security     data sharing     data mining     sound decision making    

现代生物科技的迅速发展已经使生物生态数据呈现爆炸式增长,进入“大数据时代” [1]。海量数据的整理整合和开放共享对于生物资源的研究、利用和保护至关重要。生物多样性大数据与生物资源本身一样,已成为国家战略资源,成为国际科技和产业竞争热点和战略制高点。近年来,大数据已经受到国内外的广泛关注[2]。通过Web of Science检索标题有“ big data”一词的文章,结果显示有13 092篇文章,发表日期主要集中在近5年:2011年只有20篇文章,而2013年就猛增到752篇,2017年达到3 421篇。从发表文章的学科分布看,以计算机科学、工程学、电信学、数学、企业经济学等为主。从论文的国家分布看,排在前面的是中国、美国、印度、英国、澳大利亚、韩国、加拿大和德国。

大数据为科学研究带来了新的方法论。作为科学研究的新范式,大数据正在催生人们用全新的思维追求科学发现。生命科学领域多层次大数据的汇聚、深度分析,以及通过学科交叉与生态、地理、遥感、环境等数据的融合所实现的知识发现,推动着生命科学研究向“数据密集型科学”的新范式转变,正在深刻改变着人类对生命本质的认知方式和生物多样性资源的利用能力[3-5]

因此,考虑到国家生物多样性保护战略和国家大数据发展战略的重大需求,我国生物多样性领域存在的主要问题是如何围绕生物多样性资源的保护与利用,有效整合多源异构数据资源并建立我国生物多样性与生态安全信息共享平台,实现生物多样性资源保护和有效管理,保障国家生态安全,支撑国家公益性科学研究和产业创新,促进生物多样性信息最大限度地整合、分析、评价、保护和利用,推动我国生物多样性科学创新和生物产业乃至社会经济的可持续发展。

1 生物多样性大数据建设的重要进展

近年来,生物多样性信息学快速发展,全球和区域水平的生物多样性数据库不断建立和完善[6, 7]。例如,全球生物多样性信息网络(GBIF)等全球大型数据库包括10亿多条物种分布信息。若干国家水平的数据库,如澳大利亚生物多样性信息系统(ALA)和美国标本数字化平台(iDigBio)等,亦可以提供数千万条物种分布信息。国际生物信息的主要数据库由美国的国家生物技术信息中心(NCBI)和欧洲生物信息研究所(EBI)等控制。

发达国家利用数字化手段在生物多样性与生态安全信息方面取得了重要的进展。通过建设数字化和网络化的植物园、标本馆,在现代空间科学技术和通信网络技术的基础上应用数字地图、遥感影像、实验观测、数字建模等手段,以多形式、多时相、多比例及不同的空间分辨率对生物多样性资源进行全方位表达、描述和分析,即“没有围墙的e-Science实验室”,为科学家、决策者和公众提供科学研究、资源管理和科普教育的数字化平台。

生物多样性监测手段和监测网络的发展,观测数据的不断积累,也推动着生物多样性研究进入了大数据时代。海量的生物多样性信息为生物多样性科学研究提供了有力支撑,极大促进了生物多样性大尺度格局、生物多样性保护规划与资源管理、生物多样性对全球变化的响应、外来种入侵态势预测等方面的研究[8]

在生物大数据时代背景下,生物多样性信息数据是国家重要战略资源,也是国家生态安全和生态文明建设的重要保障。生物多样性领域多层次、多维度的大数据汇聚与综合分析,正在深刻改变着人类对自然的认知方式和资源的利用能力。因此,建设国家生物多样性与生态安全综合信息服务平台具有时代的紧迫性和必要性。然而遗憾的是,从全球生物多样性在线数据资源分布看,亚洲整体上属于数据贫乏的区域,GBIF的植物分布数据亚洲只占4%。尽管中国在亚洲处于生物多样性信息学发展比较好的国家,但信息资源整合度低、数据的碎片化、共享程度有限等,阻碍了信息的深度挖掘和有效利用。

作为中国自然科学最高学术机构,中科院积累了大量生物物种(包括古生物)和遗传资源信息、野外台站和大样地监测体系,以及庞大的国际合作网络,并且已经建成了全球最大的古生物学与地层学专业数据库(GBDB)、国家标本资源共享平台(NSII)、世界微生物数据中心(WDCM)、中国生物物种名录、中国生态系统评估与生态安全数据库、中国生态系统研究网络(CERN)和中国森林生物多样性监测网络(CForBio)等一系列信息不断更新的大数据平台[9]。因此,全面整合中科院的生物、生态与社会经济和环境信息资源,聚焦服务国家重大需求的应用场景,形成多层次的栅格化数据图层;利用分析模型和可视化技术实现对生物多样性资源数据功能挖掘和利用,构建开放开源的生物多样性与生态安全大数据处理利用的通用接口,建立一个以生物多样性与生态安全信息为核心的,包括对海量数据进行有效管理、高效分析和可用易用的综合大数据平台,为生物多样性科学发现和科普教育,履行《生物多样性公约》、国家生态承载力评估和生态安全格局构建等提供强有力的支撑和服务。

http://www.geobiodiversity.com.

http://www.nsii.org.cn.

http://www.wdcm.org.

http://www.sp2000.org.cn.

http://www.ecosystem.csdb.cn.

http://www.cern.ac.cn.

http://www.cern.ac.cn.

2 中国生物多样性大数据平台建设的初步框架

针对我国科学研究和社会经济发展的需求,在现有数据资源的基础上,参考相关的国内外研究进展,搭建适合中国国情的生物多样性大数据平台,明显改善中国生物多样性大数据共享环境,并选择数据和合作基础好的类群,将数据整合的范围拓展到洲际甚至全球水平[6, 10]。平台建设的重点是整合国内外生物多样性相关的多元异构数据资源,推动数据开放共享,通过大数据的深度挖掘,在数据产品、科学发现、政府决策和科普教育等多个方面取得重要进展,主要包括下列5个方面的内容。

2.1 古生物与古环境综合数据集构建及其在生命演化中的应用

集成GBDB数据库(地球生物多样性数据库)、VPPDB数据库(中国古脊椎动物、古人类与古DNA数据库)、DFFP数据库(中国古植物与古孢粉数据库)、PPDB数据库(中国古气候古环境数据库)、OneMorph数据库(生物形态特征数据库)、南京地质古生物研究所和古脊椎动物与古人类研究所的标本馆数据库、“国家岩矿化石标本资源共享平台”的古生物地层数据,以及各高校院所的馆藏标本数据库,初步建成中国化石综合数据库和开放的古生物科普网络互动系统。研发数据挖掘工具以及基于云存储的大数据分析软件,用于定量地层对比、生物多样性演替、古地理重建、古环境模拟、系统发育分析等,探索生命演化进程与机制、古生物地理分布与扩散规律、地史时期重大事件对生物界的影响等。研究古生物多样性的演替格局与机制,为探索生命与地球的协同演化、生物多样性变化规律提供关键数据支撑和历史借鉴。

关键核心科技问题:①依托云存储与大数据分析平台,利用定量地层方法、海量化石记录与高性能计算技术,建立高分辨率的生物地层对比序列,其对比精度在万年级,而现有的其他传统技术,深时对比精度通常为百万年级;②建立地质历史时期高分辨率的海陆生物多样性变化规律,并将化石记录与岩石记录关联,探讨生命与环境的协同演化,尤其是地质历史中重大生物灭绝与辐射事件的起因、过程与生物的应对策略;③开发具有自主知识产权的古地理重建和古环境模拟软件,增强现生生物与古生物多样性在地理与环境背景下的可视化功能,识别生物的地理分布与迁徙规律等。

2.2 物种多样性及其分布数据整合与分析展示

集成物种资源与分布基础数据,完善和充实物种基础信息数据库(包括物种名录、图像、声音、文献数字化、标本记录数字化等),针对各部委或部门需求建设专题数据库;基于识别物种图像、鸣声、特征等人工智能技术开发物种识别与鉴定系统,探索新的技术在物种分类、生物多样性监测中的应用,支持入侵生物、农林害虫等重要物种快速识别与鉴定;研发数据挖掘软件与知识发现模型工具,以物种多样性大数据为基础,回答物种“有什么?”“是什么?”“在哪里?”“怎么样?”等关键科学问题,产生一批为国家决策、科学研究、科普教育提供支持的信息产品。

关键核心科技问题:①数据来源多种多样,格式不统一,需要建立统一的数据标准规范,开发基于标准规范的数据集成和管理工具,支持数据可持续获取;②不同的研究内容需要不同的模型工具和数据,如何把共同需要的模型工具与数据整合起来,并针对不同内容定制特殊模型进行数据挖掘;③引入大数据与人工智能技术是生物多样性信息学研究的重要实践,如何将传统模型方法与大数据智能模型方法相结合,促进学科发展,更好地为决策服务;④数据产品的展示与可视化直接关系到成果的应用,如何有效地利用可视化平台,提高数据产品可见度,以便更直观地应用到决策和科学发现中去。

2.3 生物遗传资源信息整合与服务平台

设计和制定生物遗传资源数据处理和分析规范,设计优化的数据质量控制体系,形成与生态、环境、气候、遥感等数据集成的规范化接口;在此基础上,系统搜集和整合海量高质量、具有代表性的生物遗传资源大数据,实现覆盖植物资源与性状、实验动物资源与功能特征、微生物资源、组学数据、DNA条形码等数据的广泛、深层次整合,形成完善的生物遗传资源为核心的数据图层。

面向国家《生物多样性公约》履约、濒危物种保护、病原微生物溯源和重要传染病防控、重大疾病的精准医疗等一系列的重要应用,建立生物遗传资源跨国转移监控、利用全基因组序列的食源性病原菌溯源、基于DNA条形码的物种鉴定、复杂疾病和相关表型的风险评估、预警和动态监测模型等一系列分析模型。建立基于地理信息系统的生物遗传资源大数据服务门户。对生物遗传资源信息的快速索引与精确匹配,设计交互式图形化分析界面,实现基于地理信息系统的大规模生物遗传资源数据的可视化展示。并整合分析模型,实现高效、实时、动态的决策支持。

关键核心科技问题:①数据、接口的标准化、数据质量控制体系建设及基于统一标准的多源数据整合;②开发异构异质数据的规范化接口,实现生物遗传资源数据与地理、环境、生态、气候、遥感等多源数据的整合,并形成一个完整的图层;③在生物遗传资源数据体系的基础上,针对重大应用需求,开发生物遗传资源转移监控、濒危物种鉴定等数据分析和可视化模型,实现生物遗传资源的挖掘与利用共享,为政府相关部门提供决策支撑,为生物产业发展提供前瞻性、战略性的指导,并实现基于地理信息系统的数据服务产品开发及应用。

2.4 中国植被图更新与在线服务平台

现有中国植被图所利用的资料基本上是新中国成立以后到20世纪80年代前的资料,获取资料的手段也主要是大规模区域资源考察的路线调查,制图过程主要依靠人工勾绘方式,从而导致现有中国植被图现实性差、斑块边界不一致等问题,因此亟须开展新一代植被图绘制研究。

近年来,随着植被调查数据的积累、遥感数据的增多、深度学习等大数据分析方法的出现,给植被图更新提供了新的机遇。利用数据平台收集整合的全国地形数据、气候数据、长时间序列遥感数据、植被资源数据,采用面对对象分割算法将中国植被划分为均质斑块;根据已有1:100万中国植被图、地表覆盖图以及同时段、多类型、海量地面调查数据与均质斑块进行空间叠加分析,并采用深度学习的方法形成新的植被类型图原型图;针对位于我国典型生态脆弱区、自然保护区、生物多样性保护优先区、生态红线管控区等重点区域的属性不一致的植被斑块采用近地面遥感技术和实地调研方式开展地面验证,同时利用“众包”和“公民科学”的方式收集植被斑块信息,逐步完成植被图的验证和鉴定,集合我国各省植被生态学领域专家,建立植被图分省校订机制,生成新一代植被图。

依托国家标本资源共享平台(NSII)、自然标本馆(CFH)等多个汇聚植被照片的网络平台,提取带有地理坐标的植物图片中蕴含的植被信息,辅助植被制图。建立面向大众用户和专家用户的植被图片众源采集数据平台,实现电脑和手机应用程序(APP)的图片采集和判别,获取众源植被类型数据,为新一代植被图绘制和未来更新提供鉴定和验证数据。植被图绘制方法形成技术储备,为“一带一路”沿线国家植被类型分布图制作提供技术支持。建立中国植被生态学领域的综合网站“中国植被在线”。采用WebGIS实现新一代植被图和专题资源展示,整合各植被分类单元的描述、图片、视频等资源,实现全方位查询。

关键核心科技问题:如何利用长时间序列的卫星遥感数据、整合众源海量地面调查数据,结合深度学习和遥感技术,绘制新一代1:50万中国植被图,改善现有植被图时效性差、边界不清晰问题,为我国生态学、地学、资源利用和保护等学科提供重要基础图件。

2.5 生态系统变化与生态安全格局评估

针对我国生物多样性与生态安全状况、变化、保护和我国生态安全格局构建的实际需求,综合采用地面监测、近地面遥感、卫星遥感等技术手段,集成地面监测数据以及区域和全国生态系统调查评估数据,动态获取基于航空遥感的生态系统与生物多样性参数;从生物多样性组分的状态和趋势、生物多样性受威胁的因素、生态系统的完整性和服务功能、资源的可持续利用、生态系统服务共享状态等多个方面筛选合适的生物多样性指标,建立区域生物多样性评估基础数据集和区域生物多样性评估体系;开展全国土地覆被与生态参数遥感监测;建立我国典型生态系统恢复成效评估平台、国家尺度生态系统评估平台、生态安全格局模拟分析平台。为生态保护成效评估、生物多样性监测与保护、生态效益评估和国家生态安全格局构建提供科技支撑,服务于国家生态文明建设。

关键核心科技问题:①生态安全格局构建方法体系。围绕国家和区域生态安全保障,建立生态系统及其生态参数动态监测技术体系、区域生态承载力评估技术方法、生态系统服务评估、模拟预测技术体系、生态安全格局构建方法与动态分析方法。②区域生物多样性监测与评估技术。针对生物多样性保护的监测与评估,从“生物多样性政策”“生物多样性压力”“生物多样性组分的状态”“生物多样性服务功能” 4个方面出发,建立规范化、标准化、时空可比的区域生物多样性评估体系,提高生物多样性监测评估方法的精度和区域适宜性。③区域生态保护成效评估方法。针对区域生态保护成效评估,建立生态保护成效评估基线的确定方法;建立区域生态保护成效评估指标体系和技术方法以及评估区域生态保护成效评估方法的区域适宜性。

3 中国生物多样性大数据平台的资源整合与共享

生物多样性大数据资源整合涉及多种结构形式、多个单位渠道和多个学科领域,数据共享形式可以分成4种类型:①中国生物多样性大数据平台建设团队产生的数据,全部充分对外提供共享服务;②中国生物多样性大数据平台建设团队主持或者作为主要参加人建设的在线数据共享平台,以在线API共享方式整合,对用户提供共享服务;③中科院资助项目产生的数据集,通过协商和院局层面的协调或者发布相关的数据共享办法实现数据共享;④中科院院外和国外数据资源采取协议方式实现数据共享。中国生物多样性大数据平台是一个由总平台、子平台和合作共享的数据源组成的生物多样性数据共享网络体系。

数据共享总平台主要包括下列4个部分:①数据汇总、质量控制、可视化展示并实现不同程度和方式的数据共享。集成古生物演化、遗传资源、物种多样性、生态系统与生物多样性动态变化等专项数据集。通过对数据信息的组织和标准化处理,构建多维度生物多样性(如组学多样性、物种多样性、谱系多样性、功能性状多样性、群落多样性、生态系统多样性和古生物多样性等)综合数据平台。建立专门的门户网站、开发专题搜索引擎,为用户提供检索服务,对各类数据集产品、数据挖掘工具、重要研究成果等进行可视化展示与充分共享。②建立共性数据库,包括高分辨率环境数据库、1亿年来的古气候古环境数据库、社会经济数据库、自然保护地数据库、新一代植被图、生态系统类型矢量图等。③整合与开发数据挖掘工具或软件,建设生物多样性与生态安全格局在线分析平台。将当前常用的生物多样性分布数据模型进行收集和整合,建立方法工具库,综合评价各类模型预测精度与稳定性,探讨全球变化下重要类群(如濒危物种、特有物种)分布和迁移与气候变化的关系、区域气候变化对生物群落和功能的影响、生态系统功能群与关键物种的变化预测、生物多样性保护热点与空缺分析、自然保护区管理成效评估、外来物种风险评估预测与预警、关键生态系统例如中国森林、草原、湿地等类型动态变化模拟与未来变化情景预测等。④利用手机APP智能识别物种功能性状或鸟类鸣声等特征,快速识别动、植物物种,在提供物种识别服务的同时实现众源数据采集。通过中国植物志在线、中国植被在线和生物多样性知识百科等在线知识产品以及对用户进行的数据平台、数据挖掘工具和人工智能识别系统等使用培训,让广大用户简单快捷地从综合平台上获取需要的生物多样性信息,不断提高用户的体验水平。

中国生物多样性大数据平台的核心任务是通过各种可能的方式整合现有的相关数据资源,在此基础上形成4个方面的产出。①整合、清理和完善专题数据集,为用户提供价值大共享程度高的数据产品;②针对重要的科学问题充分挖掘整合的数据资源,在大数据基础上开展数据密集型研究[11],有力地驱动更具创新性的科学发现;③瞄准国家重大需求,支撑生态文明思想指导下的政府决策,为中国可持续发展目标实现提供强有力的科学支撑;④通过知识库和灵活多样的数字产品,为科普教育和社会公众科学文化水平提高做出重要贡献。

参考文献
[1]
张健. 大数据时代的生物多样性科学与宏生态学[J]. 生物多样性, 2017, 25(4): 355-363.
[2]
La Salle J, Williams K J, Moritz C. Biodiversity analysis in the digital era[J]. Philosophical Transactions of the Royal Society B-Biological Sciences, 2016, 371(1702): 20150337. DOI:10.1098/rstb.2015.0337
[3]
Soltis D E, Soltis P S. Mobilizing and integrating big data in studies of spatial and phylogenetic patterns of biodiversity[J]. Plant Diversity, 2016, 38(6): 264-270. DOI:10.1016/j.pld.2016.12.001
[4]
Bar-Yam Y. From big data to important information[J]. Complexity, 2016, 21(S2): 73-98. DOI:10.1002/cplx.v21.S2
[5]
马克平. 生物多样性科学的若干前沿问题[J]. 生物多样性, 2017, 25(4): 343-344.
[6]
Wu L, Sun Q, Desmeth P, et al. World data centre for microorganisms:an information infrastructure to explore and utilize preserved microbial strains worldwide[J]. Nucleic Acids Research, 2017, 45(D1): D611-D618. DOI:10.1093/nar/gkw903
[7]
Wen J, Harris A J, Ickert-Bond S M, et al. Developing integrative systematics in the informatics and genomic era, and calling for a global Biodiversity Cyberbank[J]. Journal of Systematics and Evolution, 2017, 55(4): 308-321. DOI:10.1111/jse.12270
[8]
马克平. 中国生物多样性编目取得重要进展[J]. 生物多样性, 2015, 23(2): 137-138.
[9]
许哲平, 陈彬, 王利松, 等. 生物多样性信息学研究进展与发展趋势//新生物学年鉴2013. 北京: 科学出版社, 2014: 290-312.
[10]
马克平. 亚洲植物多样性数字化计划[J]. 生物多样性, 2017, 25(1): 1-2.
[11]
Kelling S, Hochachka W M, Fink D, et al. Data-intensive science:A new paradigm for biodiversity studies[J]. BioScience, 2009, 59(7): 613-620. DOI:10.1525/bio.2009.59.7.12