智能算法安全:内涵、科学问题与展望

Intelligent algorithm safety:Concepts, scientific problems and prospects
作者
        程学旗*(中国科学院计算技术研究所 智能算法安全重点实验室 北京 100190;中国科学院大学 计算机科学与技术学院 北京 100049)
        陈薇*(中国科学院计算技术研究所 智能算法安全重点实验室 北京 100190;中国科学院大学 计算机科学与技术学院 北京 100049)
        沈华伟(中国科学院计算技术研究所 智能算法安全重点实验室 北京 100190;中国科学院大学 计算机科学与技术学院 北京 100049)
        山世光(中国科学院计算技术研究所 智能算法安全重点实验室 北京 100190;中国科学院大学 计算机科学与技术学院 北京 100049)
        陈熙霖(中国科学院计算技术研究所 智能算法安全重点实验室 北京 100190;中国科学院大学 计算机科学与技术学院 北京 100049)
        李国杰(中国科学院计算技术研究所 智能算法安全重点实验室 北京 100190;中国科学院大学 计算机科学与技术学院 北京 100049)
中文关键词
         大数据;智能算法;智能算法安全;人工智能伦理与安全;智能算法安全层级范式
英文关键词
        big data;intelligent algorithms;intelligent algorithm safety;ethics and safety of artificial intelligence;TRC paradigm
中文摘要
        智能算法是指实现智能的计算过程所体现的方法,大多具备数据驱动、不确定性计算、模型推断难解释等特性,而这些特性同时也给智能算法应用带来了潜在的安全风险。文章首先探讨智能算法安全的内涵。具体地,智能算法安全的内涵依据人机融合的程度,由算法自身的一元内生性安全,延伸到算法服务于人时的人机二元应用性安全,最终拓展为人机共生的复杂社会系统中多元系统性安全,故据此提出智能算法安全层级范式(以下简称“TRC范式”),分别涵盖内生决策可信(trustworthiness)的一元安全目标、应用服务可管(regulatability)的二元安全目标和系统风险可控(controllability)的多元安全目标。进一步,基于当前实现TRC范式中的技术难点与智能算法可信、可管、可控的目标,文章提出实现智能算法安全需要重点突破的不确定性算法的可信域判定、黑箱模型的透明化监测与人机共生智能系统的风险临界点感知3个重大科学问题。最后,围绕TRC范式的“度量—评估—增强”技术体系,提出7项研究方向建议与4个方面智能算法安全相关的发展建议,并展望其助力实现人机共治的未来愿景。
英文摘要
        Intelligent algorithms refer to the methods embodied in the computational processes that realize intelligence. These methods are often characterized by being data-driven, involving uncertain computations, and with unexplainable model inferences. These characteristics simultaneously introduce potential safety risks to the application of intelligent algorithms and AI. This study firstly explores the concepts of intelligent algorithm safety. Specifically, intelligent algorithm safety, based on the degree of humanmachine integration, extends from the univariate safety of the algorithm itself to the bivariate applicational safety when the algorithm serves humans, and finally evolves into the multivariate systemic safety arises within complex socio-technical systems of humanmachine symbiosis. Therefore, this study proposes a hierarchical paradigm of intelligent algorithm safety, namely "TRC paradigm", covering the univariate safety objective of trustworthiness in algorithm's internal decision-making, the bivariate safety objective of regulatability in application services, and the multivariate safety objective of controllability for system-wide risk management. Furthermore, based on the current technical challenges in achieving the TRC paradigm and in line with the goals of trustworthiness, regulatability, and controllability, the study identifies three major scientific questions that need to be answered:determining the trust regions of uncertain algorithms, transparentized monitoring of black-box models, and sensing the critical point in human-machine symbiotic intelligent systems. Finally, this study outlines seven research directions, and four recommendations related to intelligent algorithm safety under the "measurement-evaluation-enhancement" technical framework of the TRC paradigm, while envisioning how this will help achieve a future of human-machine co-governance.
DOI10.16418/j.issn.1000-3045.20240720004
微信关注公众号