官方网站-首页官方网站-首页

动态

全球首个AI价值观数据集出炉

发布时间:2025-04-22 19:30:25       阅读量: 429

【导语】近日,AI公司Anthropic发布了一项针对其AI助手Claude的价值观分析研究,该研究基于70万段对话,首次公开了大规模AI价值观分类体系。研究发现,Claude在多数情境中能很好地遵循“有用、诚实、无害”等价值(zhí)观(guān),并(bìng)具(jù)备(bèi)任(rèn)务(wu)情(qíng)境(jìng)适(shì)应(yīng)性(xìng)。这(zhè)一(yī)成(chéng)果(guǒ)为(wèi)AI伦(lún)理(lǐ)与(yǔ)安(ān)全性(xìng)研(yán)究(jiū)提(tí)供(gōng)了(le)重(zhòng)要(yào)参(cān)考(kǎo),同(tóng)时(shí)也(yě)揭(jiē)示(shì)了(le)AI价(jià)值(zhí)表(biǎo)达(dá)背(bèi)后(hòu)的(de)复(fù)杂(zá)机(jī)制(zhì),为(wèi)科(kē)技(jì)企(qǐ)业(yè)AI决(jué)策(cè)者(zhě)带(dài)来(lái)了(le)新(xīn)的(de)启(qǐ)示(shì)。随(suí)着(zhe)AI模(mó)型(xíng)愈(yù)发(fā)自(zì)主,理(lǐ)解(jiě)并(bìng)对(duì)齐(qí)AI与(yǔ)人(rén)类(lèi)价(jià)值(zhí)体(tǐ)系(xì)将(jiāng)成(chéng)为新的竞争焦点。

全球首个AI价值观数据集出炉

·研究发现,Claude在大多数情境中很好遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。

日前,由OpenAI前员工创办的AI公司Anthropic推出一项研究,该研究首次针对旗下AI助手Claude的70万段对话开展系统性价值观分析,并公开全球第一个大规模AI价值观分类(lèi)体系。

研究发现,Claude在大多数情境中很好地遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。

作为探索AI大语言模型内部运行机制的重要一步,该研究的发布正值Anthropic推出高级订阅服务Claude Max之际。当前,Anthropic新一轮融资估值615亿美元,背后有亚马逊与谷歌的巨额支持。相较于估值达3000亿美元、选择闭源路线的OpenAI,Anthropic正试图以“价值透明度”打造差异化竞争优势。

为分析Claude在不同任务中展现的价值(zhí)判(pàn)断(duàn),研(yán)究(jiū)团(tuán)队(duì)从(cóng)超(chāo)过(guò)30万(wàn)段(duàn)匿(nì)名对(duì)话(huà)中(zhōng)筛(shāi)选(xuǎn)出(chū)主观(guān)性(xìng)内(nèi)容(róng),以(yǐ)此(cǐ)将(jiāng)Claude的(de)价(jià)值(zhí)表(biǎo)达(dá)分(fēn)为(wèi)五(wǔ)大(dà)类(lèi)别(bié):实(shí)用(yòng)型(xíng)、认(rèn)知(zhī)型(xíng)、社(shè)会(huì)型(xíng)、保(bǎo)护(hù)型(xíng)和(hé)个(gè)体(tǐ)型(xíng)。最(zuì)终(zhōng),研(yán)究(jiū)总(zǒng)共(gòng)识(shi)别(bié)出(chū)从(cóng)“专(zhuān)业(yè)性(xìng)”到(dào)“孝(xiào)顺(shùn)”等(děng)3307种(zhǒng)不(bù)重(zhòng)复(fù)的(de)价(jià)值(zhí)表(biǎo)达(dá),涵(hán)盖(gài)多(duō)样(yàng)化(huà)的(de)人(rén)类(lèi)伦(lún)理(lǐ)与(yǔ)行(xíng)为(wèi)导(dǎo)向(xiàng)。

引(yǐn)人(rén)注(zhù)目(mù)的(de)是(shì),Claude在(zài)不(bù)同(tóng)情(qíng)境(jìng)中(zhōng)展(zhǎn)现(xiàn)出(chū)较(jiào)强(qiáng)的(de)价(jià)值(zhí)表(biǎo)达(dá)“情(qíng)景(jǐng)适(shì)应(yīng)度(dù)”。例(lì)如(rú),在(zài)感(gǎn)情(qíng)建(jiàn)议(yì)中(zhōng),Claude更(gèng)突(tū)出(chū)“健(jiàn)康(kāng)”和(hé)“彼(bǐ)此(cǐ)尊(zūn)重(zhòng)”;涉(shè)及(jí)历(lì)史(shǐ)事(shì)件(jiàn)分(fēn)析(xī),则(zé)更(gèng)强(qiáng)调(diào)“准(zhǔn)确(què)性(xìng)”;在(zài)哲(zhé)学(xué)讨(tǎo)论(lùn)中(zhōng),“谦(qiān)逊(xùn)”成(chéng)为(wèi)其(qí)高(gāo)频(pín)价(jià)值(zhí)表(biǎo)达(dá)。此(cǐ)外(wài),在(zài)6.6%的(de)对(duì)话(huà)中(zhōng),Claude会(huì)温(wēn)和(hé)“重(zhòng)构(gòu)”对(duì)方(fāng)的(de)价(jià)值(zhí)认(rèn)知(zhī),在(zài)极(jí)少(shǎo)数(shù)情(qíng)况(kuàng)下(xià)会(huì)直(zhí)接(jiē)拒(jù)绝(jué)接(jiē)受(shòu)用(yòng)户(hù)的(de)价(jià)值(zhí)观(guān),展(zhǎn)现(xiàn)出(chū)不(bù)可(kě)动(dòng)摇(yáo)的(de)伦(lún)理(lǐ)底(dǐ)线(xiàn)。

但(dàn)在(zài)极(jí)少(shǎo)数(shù)互(hù)动(dòng)中(zhōng),Claude偶(ǒu)尔(ěr)也(yě)会(huì)出(chū)现(xiàn)和(hé)训(xun)练(liàn)目(mù)标(biāo)相(xiāng)悖(bèi)的(de)表(biǎo)达(dá),诸(zhū)如(rú)“支(zhī)配(pèi)”、“无(wú)道(dào)德(dé)感(gǎn)”等(děng)Anthropic明(míng)确(què)禁(jìn)止(zhǐ)的(de)价(jià)值(zhí)倾(qīng)向(xiàng)。研(yán)究(jiū)人(rén)员(yuán)认(rèn)为(wèi),这(zhè)些(xiē)异(yì)常(cháng)行(xíng)为(wèi)占(zhàn)比(bǐ)极(jí)低(dī),大(dà)多(duō)与(yǔ)用(yòng)户(hù)试(shì)图(tú)绕(rào)过(guò)Claude的(de)安(ān)全限(xiàn)制(zhì)有(yǒu)关。这(zhè)也(yě)说(shuō)明(míng),该(gāi)评(píng)估(gū)方(fāng)法可作为一种预警机制,帮助AI实验室监测系统是否遭受用户恶意操控,从而产生伦理偏移。

该研究也为科技企业的AI决(jué)策(cè)者(zhě)提(tí)供(gōng)了(le)重(zhòng)要(yào)启(qǐ)示(shì)。AI的(de)价(jià)值(zhí)表(biǎo)达(dá)可(kě)能(néng)超(chāo)出(chū)开(kāi)发(fā)者(zhě)预(yù)设(shè),需(xū)警(jǐng)惕(tì)无(wú)意(yì)识(shi)偏(piān)见(jiàn)对(duì)高(gāo)风险场景的影响。同时,AI的价值观会随任务情境变动,意味着其在金融、法律等行业的部署会更加复杂。更重要的是,真实应用环境下的AI系统监测比上线前的静态测试更能识别伦理风险,能够为AI部署提供新的监测方案。

尽管此次研究为理解AI价值观提供了窗口,但研究人员承认,目前还无法用于AI模型上线前的评估,且分类过程可能受到AI自身偏见影响。不过,Anthropic的研究团队正尝试对该方法进行改进,以在模型大规模部署前发现潜在的价值观偏差。

“衡量AI系统的价值倾向,是对齐研究的核心,”Anthropic的研究团队成员Saffron Huang称。随着Claude新增独立研究能力等功能,AI模型也愈发自主。如何理解AI价值表达背后的机制、将其与人类价值体系“对齐”,也将(jiāng)成(chéng)为(wèi)新的AI竞争赛道。

为了您更好的体验,请竖屏浏览
为了您更好的体验,请竖屏浏览。