医疗AI如何选？专用模型识别疾病更准，GPT-4推理能力强但成本高昂-（南京）软件科技有限公司

动态行业资讯

动态

医疗AI如何选？专用模型识别疾病更准，GPT-4推理能力强但成本高昂

发布时间：2025-04-08 01:30:21 阅读量: 443

·研究(jiū)人(rén)员(yuán)发(fā)现(xiàn)，在(zài)生(shēng)物(wù)医(yī)疗(liáo)领(lǐng)域，尽(jǐn)管(guǎn)“定(dìng)制(zhì)版(bǎn)”垂(chuí)类(lèi)模(mó)型(xíng)应(yīng)用(yòng)对(duì)于(yú)医(yī)学(xué)自(zì)然(rán)语(yǔ)言(yán)处(chù)理(lǐ)上(shàng)仍(réng)有(yǒu)优(yōu)势(shì)，但(dàn)涉(shè)及(jí)复(fù)杂(zá)的(de)推(tuī)理(lǐ)，尤(yóu)其(qí)是(shì)医(yī)学(xué)问(wèn)答(dá)方(fāng)面(miàn)，闭源通用大模型GPT-4则更有明显优势。

记者蒋立冬 AI创意

大模型在生物医疗领域的应用情况如何？哪种模型更加适用？4月6日，《自然·通讯》（Nature Communications）杂志刊登了一项由耶鲁大学医学院的研究人员对大语言模型（LLMs）在生物医学自然语言处理（BioNLP）中的全面评估与(yǔ)应(yīng)用(yòng)指(zhǐ)南(nán)（《Benchmarking large language models for biomedical natural language processing applications and recommendations》，以(yǐ)下(xià)简(jiǎn)称“指南”）。在该份指南中，研究人员选择了12个来自 BioNLP 不同应用领域的数据集，评估了四种具有代表性的大模型GPT-3.5、GPT-4、LLaMA 2 和 PMC LLaMA在零样本、少样本和微调设置下的性能。

生物医学自然语言处理（BioNLP）技术是一种将自然语言处理技术应用于生物医学领域的交叉学科技术，核心是从大量的生物医学文本比如医学论文、电子病历、基因数据库等中自动提取有用的信息。

研究人员发现，在生物医疗领域，仅靠持续扩充预训练数据并不能显著提升开源生(shēng)物(wù)医(yī)学(xué)大(dà)语(yǔ)言(yán)模(mó)型(xíng)的(de)整(zhěng)体(tǐ)表(biǎo)现(xiàn)，针(zhēn)对(duì)具(jù)体(tǐ)医(yī)学(xué)任(rèn)务(wu)的(de)微(wēi)调(diào)才(cái)是(shì)关键。比(bǐ)如(rú)生(shēng)物(wù)医(yī)学(xué)领(lǐng)域特(tè)定(dìng)大(dà)模(mó)型(xíng)的(de)代(dài)表(biǎo)PMC -LLaMA，使(shǐ)用(yòng)了32个A100 GPU对模型进(jìn)行(xíng)预(yù)训(xun)练(liàn)，但(dàn)最(zuì)终(zhōng)评(píng)估(gū)并(bìng)未(wèi)发(fā)现(xiàn)该(gāi)模(mó)型(xíng)的(de)性(xìng)能(néng)有(yǒu)显(xiǎn)著(zhe)提(tí)升(shēng)。PMC -LLaMA是(shì)由(yóu)上(shàng)海(hǎi)交(jiāo)通(tōng)大(dà)学(xué)长(zhǎng)聘(pìn)轨(guǐ)副(fù)教(jiào)授(shòu)谢(xiè)伟(wěi)迪(dí)研(yán)究(jiū)团(tuán)队(duì)于(yú)2023年(nián)4月(yuè)研(yán)发(fā)的(de)垂(chuí)类(lèi)模(mó)型(xíng)，基(jī)座(zuò)模(mó)型(xíng)使(shǐ)用(yòng)的(de)是(shì)LLaMA 2；研(yán)究(jiū)人(rén)员(yuán)发(fā)现(xiàn)，直(zhí)接(jiē)微(wēi)调(diào)LLaMA 2可以获得更好或至少相似的性能。通过微调，模型可以针对性地学习医学领域的专业知(zhī)识(shi)和(hé)复(fù)杂(zá)推(tuī)理(lǐ)要(yào)求(qiú)，从(cóng)而(ér)在(zài)信(xìn)息(xi)抽(chōu)取(qǔ)、医(yī)学(xué)问(wèn)答(dá)等(děng)任(rèn)务(wu)上(shàng)实(shí)现(xiàn)显(xiǎn)著(zhe)性(xìng)能(néng)提(tí)升(shēng)。

研(yán)究人员建议，未来在生物医疗应用中，应更多关注如何优化微调策略，以弥补预训练在处理专业医学文本时的不足。“需要一种更有效、更可持续的方法来开发特定于生物医学领域的大语言模型。”研究人员称。

相较于通用大模型，针对生物医疗领域里的“定制版”模型BioBERT和PubMedBERT（注释：Bert是一款由谷歌开发的预训练语言模型），在医学自然语言处理表现更出色。由于经过专业的医学数据训练，BioBERT和PubMedBERT这类“定制版”模型能够更精准地识别疾病名称、基因、化学物质以及理解医学术语，这一点表现比GPT-3.5和GPT-4为代表的通用大型语言模型更好。但涉及较为复杂的推理任务，尤其是医学问答方面，GPT-4则更有明显优势，能够“看懂(dǒng)并(bìng)能(néng)思(sī)考(kǎo)”，生(shēng)成(chéng)更(gèng)合(hé)理(lǐ)以(yǐ)及(jí)准(zhǔn)确(què)的(de)回(huí)应(yīng)。

对(duì)于(yú)生(shēng)物(wù)医(yī)药(yào)行(xíng)业(yè)普(pǔ)遍(biàn)关心(xīn)的(de)大(dà)模(mó)型(xíng)幻(huàn)觉(jué)问(wèn)题(tí)，此(cǐ)次(cì)研究结果表明，GPT-4在两个数据集上几乎没有出现幻(huàn)觉(jué)问(wèn)题(tí)。在(zài)零(líng)样(yàng)本(běn)条(tiáo)件(jiàn)下(xià)，通(tōng)用(yòng)开(kāi)源(yuán)模(mó)型(xíng)LLaMA 2则(zé)更(gèng)容(róng)易(yì)出(chū)现(xiàn)幻(huàn)觉(jué)问(wèn)题(tí)，比(bǐ)如(rú)输(shū)出(chū)时(shí)常(cháng)常(cháng)出(chū)现(xiàn)信(xìn)息(xi)不(bù)完(wán)整(zhěng)、格(gé)式(shì)不(bù)一(yī)致(zhì)或(huò)提(tí)示(shì)无(wú)关内(nèi)容(róng)的(de)情(qíng)况(kuàng)，它(tā)产(chǎn)生(shēng)的(de)幻(huàn)觉(jué)案(àn)例(lì)约(yuē)占(zhàn)测(cè)试(shì)样(yàng)本(běn)的(de)32%，比(bǐ)例远超GPT-3.5和GPT-4。

尽管GPT-4在众多评估任务中表现优异，但(dàn)研(yán)究(jiū)人(rén)员(yuán)指(zhǐ)出(chū)，其(qí)调(diào)用(yòng)成(chéng)本(běn)相(xiāng)当(dāng)于(yú)GPT-3.5的(de)60至(zhì)100倍(bèi)。对(duì)于预算有限的实际应用场景，医学机构可能会倾向于选用成本较低且效果可接受的GPT-3.5；而对于准确性要求极高、尤其是医学问答这类依赖复杂推理的任务中，GPT-4可能会是更理想的选择。