辛顿、姚期智等联名签署“上海共识”，呼吁给AI确立行为红线-（南京）软件科技有限公司

动态行业资讯

动态

辛顿、姚期智等联名签署“上海共识”，呼吁给AI确立行为红线

发布时间：2025-07-25 21:30:50 阅读量: 340

【导语】2024年7月25日，由杰弗里·辛顿、姚期智、本吉奥、斯图尔特·罗素等20余位顶尖AI行业专家与学者共同签署的《AI安全国际对话上海共识》正式公布。该共识强调，国际社会应确立具体、可操作、受全球认可的红线，以确保人工智能系统在任何情况下均不失控。此次共识是在“AI安全国际对话”系列会议背景下达成的，旨在应对人工智能系统迅速接近并可能超越人类智能水平所带来的潜在风险。参与签署的专家呼吁，全球需跨国界合作，共同确立并恪守AI行为红线，推动“基于设计的安全”研究，以主动应对AI安全挑战。

“国际社会应确立具体、可操作、受全球认可的红线，确保人工智能系统在任何(hé)情(qíng)况(kuàng)下(xià)均(jūn)不得逾越。”7月25日，由杰弗里·辛顿（Geoffrey Hinton）、姚期智、本吉奥（Yoshua Bengio）、斯图尔特·罗素（Stuart Russell）等20余位行业专家、学者共同签署的AI安全国际对话上海共识（以下简称“上海共识”）正式对外公开。

参与签署的部分中外科学家来源：IDAIS官网

此次对话是“AI安全国际对话”（International Dialogues on AI Safety - IDAIS）系列的一部分”。作为本次共识发起方之一，图灵奖得主、上海期智研究院的院长姚期智当日表示，“我越来越相信，人类终将找到解决方案。”

联名签署现场

2024年3月，辛顿、姚期智、罗素、本吉奥等专家曾共同签署“北京共识”，主张限制AI系统复制、欺骗、武器开发等行为，尤其呼吁行业为AI的研发和应用戴上“紧箍咒”，避免相关技术被滥用，推动全球治理机构构建。姚期智透露，18个月前举办第一次安全共识会议时，AGI强大的破坏力就已经显现，人类甚至难以阐明其失控机制，不过随着相关会议的推进，已经看到若干(gàn)有(yǒu)关基(jī)于(yú)“设(shè)计(jì)的(de)安(ān)全”（Safe by design）提(tí)案(àn)，这(zhè)意(yì)味(wèi)着(zhe)实(shí)际上人类可以找到确保AI安全的可行路径。

此次“上海共识”指出，当前人类正处于一个关键转折点：人工智能系统正迅速接近并可能(néng)超(chāo)越(yuè)人类智能水平。这些未来的系统可能在操作者毫不知情的情况下，执行并非操作者所期望或预测的行动。这可能导致失控，即一个或多个通用人工智能系统脱离任何人的控制，从而带来灾难性甚至是生存层面的风险。当前，对于能够在更高级的通用人工智能超越人类智能水平后，仍可靠地确保其对齐，并保持人类的有效控制尚无可行方法。

多位与会专家在参与讨论时也提及，当前构建真正有约束力且值得信赖的国际AI安全框架难度高、风险大。

上海人工智能实验室主任周伯文教授指出，目前Make AI Safe（使得AI安全）最大的问题在于它是事后价值对齐、修补的、被动回应的，通常是防御成本过高而攻击成本过低。而Make Safe AI（构建安全的AI）是主动的、在线共同演进的，同时防御成本低，能够在各级风险上都保持应变能力。

周伯文认为，在一定程度上，训练一个模型变得友善和训练一个模型变得聪明可能是两条不同的技术路径。但当性能发展到某个程度，这两种能力可能很难分开处理——就像经典牛顿定律可以有效解释静止或慢速物体的运动，但是一旦逼近光速，这套理论就失效了。所以他认为，下一代模型的“善”与“智”未必能完全独立、分开发展，而是相互影响、共同进化的。

参与签署的专家之一，担任约翰·霍普金斯大学人工智能对齐与治理方向杰出教授吉莉恩·哈德菲尔（Gillian Hadfield）在接受包括澎湃科技在内的媒体采访时指出，必须通过设立AI“红线”来推动Make AI Safe（使得AI安全），全世界需要跨国界合作。此外，要建立相应的AI安全合规系统。

为防范与纠正此类行为的技术路径与(yǔ)治理机制，“上海共识”提出应对策略，并呼吁采取三项关键行动：要求前沿人工智能开发者提供安全保障、通过加强国际协(xié)调(diào)，共(gòng)同(tóng)确(què)立(lì)并(bìng)恪(kè)守(shǒu)可(kě)验(yàn)证(zhèng)的(de)全球(qiú)性(xìng)行(xíng)为(wèi)红(hóng)线(xiàn)、投(tóu)资(zī)基(jī)于(yú)设(shè)计(jì)的(de)安(ān)全人(rén)工(gōng)智(zhì)能(néng)研(yán)究(jiū)。

其(qí)中(zhōng)，对(duì)于(yú)开(kāi)发(fā)者(zhě)来(lái)说(shuō)，“上(shàng)海(hǎi)共(gòng)识(shi)”要(yào)求(qiú)开(kāi)发(fā)者(zhě)在(zài)模(mó)型(xíng)部(bù)署(shǔ)前(qián)应(yīng)先(xiān)进(jìn)行(xíng)全面(miàn)的(de)内(nèi)部(bù)检(jiǎn)查(chá)和(hé)第(dì)三(sān)方(fāng)评(píng)估(gū)，提(tí)交(jiāo)高(gāo)可(kě)信(xìn)的(de)安(ān)全案(àn)例(lì)，以(yǐ)及(jí)开(kāi)展(zhǎn)深(shēn)入(rù)的(de)模(mó)拟(nǐ)攻(gōng)防(fáng)与(yǔ)红(hóng)队(duì)测(cè)试(shì)。若(ruò)模(mó)型(xíng)达(dá)到(dào)了(le)关键能(néng)力(lì)阈(yù)值(zhí)（比(bǐ)如(rú)检(jiǎn)测(cè)模(mó)型(xíng)是(shì)否(fǒu)具(jù)备(bèi)帮(bāng)助(zhù)没(méi)有(yǒu)专(zhuān)业(yè)知(zhī)识(shi)的(de)非(fēi)法(fǎ)分(fēn)子(zi)制(zhì)造(zào)生(shēng)化(huà)武(wǔ)器(qì)的(de)能(néng)力(lì)），开(kāi)发(fā)者(zhě)应(yīng)向(xiàng)政(zhèng)府(fǔ)（在(zài)适(shì)当(dāng)时(shí)亦(yì)可(kě)向(xiàng)公(gōng)众(zhòng)）说(shuō)明(míng)潜(qián)在(zài)风(fēng)险(xiǎn)。

此(cǐ)外(wài)，呼(hū)吁(xū)国(guó)际(jì)社(shè)会(huì)需(xū)要(yào)合(hé)作(zuò)划(huà)出(chū)人(rén)工(gōng)智(zhì)能(néng)开(kāi)发(fā)不(bù)可(kě)以(yǐ)逾(yú)越(yuè)的(de)红(hóng)线(xiàn)（即(jí)“高(gāo)压(yā)线(xiàn)”），这(zhè)些(xiē)红(hóng)线(xiàn)应(yīng)聚(jù)焦(jiāo)于(yú)人(rén)工(gōng)智(zhì)能(néng)系(xì)统(tǒng)的(de)行(xíng)为(wèi)表(biǎo)现(xiàn)，其(qí)划(huà)定(dìng)需(xū)同(tóng)时(shí)考(kǎo)量(liàng)系(xì)统(tǒng)执(zhí)行(xíng)特(tè)定(dìng)行(xíng)为(wèi)的(de)能(néng)力(lì)及(jí)其(qí)采取(qǔ)该(gāi)行(xíng)为(wèi)的(de)倾(qīng)向(xiàng)性(xìng)。为(wèi)落(luò)实这些红线，各国应建立一个具备技术能力、具有国际包容性的协调机构，汇聚各国人工智能安全主管机构，以共享风险相关信息，并推动评估规程与验证(zhèng)方(fāng)法(fǎ)的标准化。

“上海共识”指出，短期内亟须建立可扩展的监管机制以应对人工智能的欺骗问题、提升模型对“越狱”等攻击手段的抵御能力、强化信息安保投入等，而长期则需要一个“基于设计的安全”的架构，而非问题出现后才被动应对。