官方网站-首页“过去很多年,我们在数据应用方面仍停留在做一些漂亮的统计报表上,并没有(yǒu)深(shēn)挖(wā)数(shù)据(jù)内(nèi)在(zài)价(jià)值(zhí)。大(dà)部(bù)分(fēn)数(shù)据(jù)仍(réng)沉(chén)睡(shuì)在(zài)云(yún)端(duān)服(fú)务(wu)器(qì)上(shàng),并(bìng)没(méi)有(yǒu)转(zhuǎn)化(huà)为(wèi)企(qǐ)业(yè)真(zhēn)正(zhèng)的(de)资(zī)产(chǎn)。”日(rì)前(qián),在(zài)由(yóu)上(shàng)海(hǎi)复(fù)旦(dàn)大(dà)学(xué)校(xiào)友(you)会(huì)创(chuàng)业(yè)创(chuàng)新(xīn)俱(jù)乐(lè)部(bù)主办(bàn)的(de)第(dì)四(sì)届(jiè)创(chuàng)业(yè)创(chuàng)新(xīn)数(shù)字(zì)经(jīng)济(jì)生(shēng)态(tài)论(lùn)坛(tán)上(shàng),复(fù)旦(dàn)大(dà)学(xué)计(jì)算(suàn)机(jī)科(kē)学(xué)技(jì)术(shù)学(xué)院(yuàn)教(jiào)授(shòu)、博(bó)导(dǎo)、上(shàng)海(hǎi)市(shì)数(shù)据(jù)科(kē)学(xué)重(zhòng)点(diǎn)实(shí)验(yàn)室(shì)主任(rèn)肖(xiào)仰(yǎng)华(huá)在(zài)主题(tí)演(yǎn)讲(jiǎng)过(guò)程(chéng)中(zhōng)直(zhí)言(yán),当(dāng)前(qián),数(shù)据(jù)价值变现也面临诸多(duō)挑(tiāo)战(zhàn)。

复旦大学计算机(jī)科(kē)学(xué)技(jì)术(shù)学(xué)院(yuàn)教(jiào)授(shòu)、博(bó)导(dǎo)、上(shàng)海市数据科学重点实验室主任肖仰华
肖仰华认为,造成这类现象的困境有多层原(yuán)因(yīn)。现(xiàn)阶(jiē)段(duàn)数(shù)据(jù)管(guǎn)理(lǐ)处(chù)于(yú)多(duō)主体(tǐ)状(zhuàng)态(tài),“今(jīn)天(tiān)可(kě)能(néng)在(zài)生(shēng)产(chǎn)者(zhě)手(shǒu)中(zhōng),明(míng)天(tiān)可(kě)能(néng)在(zài)采集者(zhě)手(shǒu)中(zhōng),之(zhī)后(hòu)会(huì)流(liú)通(tōng)到(dào)加(jiā)工(gōng)者(zhě)、使(shǐ)用(yòng)者(zhě)、运(yùn)营(yíng)者(zhě)手(shǒu)中(zhōng)”,这(zhè)种多方主体的状态,使得数据的确权和数据安全是否可控面临较高(gāo)要(yào)求(qiú)。
此(cǐ)外(wài),数(shù)据(jù)运(yùn)行(xíng)的(de)环(huán)境(jìng)和(hé)生(shēng)态(tài)也(yě)前(qián)所(suǒ)未(wèi)有(yǒu)地(de)复(fù)杂(zá)。肖仰华指出,数据运行的形态极为多样。数据可能运行于传统数据库、关系数据库、云数据库,也可能存在于文件中,甚至可能成为大模型的语料。
随着数据管理的复杂性和多样性增加,肖仰华称,对企业发展统一、标准化的数据管理和操作方法也提出新需求。在(zài)数(shù)据(jù)价(jià)值(zhí)变(biàn)现(xiàn)层(céng)面(miàn)上(shàng),如(rú)何(hé)唤(huàn)醒(xǐng)、盘(pán)活(huó)“沉(chén)睡(shuì)的(de)数(shù)据(jù)”?
肖(xiào)仰(yǎng)华(huá)认(rèn)为(wèi),人(rén)工(gōng)智(zhì)能(néng)时(shí)代(dài),大(dà)模(mó)型(xíng)有(yǒu)可(kě)能(néng)成(chéng)为(wèi)盘(pán)活(huó)沉(chén)睡(shuì)数(shù)据(jù)资(zī)产(chǎn)的(de)“利(lì)器(qì)”,大(dà)模(mó)型(xíng)有(yǒu)利(lì)于(yú)将(jiāng)数(shù)据(jù)转(zhuǎn)化(huà)为(wèi)商(shāng)业(yè)价(jià)值(zhí)。
肖(xiào)仰(yǎng)华(huá)称(chēng),大(dà)模型之所以被各行各业积极拥抱,是因为它极大地简化了传统的商业变现流程。现在甲方只需提前提供数据,大模型就能自动从数据中学习到领域知识支撑下游应用,从而形成商业价值,无需再与资产方进行复杂的沟通,这种端到端的方式为商业应用带来了极大的便利。
此外,在多模态数据的统一价值变现上,以前收集到的数据库服务器可能是文本格式、图像格式,也可能是语音或表格,各类各样都有。但如今,只要将这些数据统一转换成序列数据,就可以通过大模型进行训练,从而实现统一的数据价值变现方式。
不仅如此,大模型还在数据库的智能化运维方面发挥了重要作用。传统数据库应用系统需要大量人力和资金投入运营,而(ér)大(dà)模(mó)型(xíng)的(de)自(zì)动(dòng)化(huà)运(yùn)维(wéi)能(néng)力(lì)可(kě)以(yǐ)显(xiǎn)著(zhe)提(tí)高(gāo)运(yùn)维(wéi)效(xiào)率(lǜ),解(jiě)放(fàng)人(rén)力(lì)资(zī)源(yuán)。
不(bù)过(guò),尽(jǐn)管(guǎn)大(dà)模(mó)型(xíng)为(wèi)释(shì)放(fàng)企(qǐ)业(yè)和(hé)各(gè)类(lèi)行(xíng)业(yè)数(shù)据(jù)价(jià)值(zhí)带(dài)来(lái)了全新机遇,但仍面临诸多挑战。
肖仰华认为,其中一个挑战在于,目前的通用大模型以聊天或开放性任务为主,仍存在“幻觉”现象、专业知识不足以及专业思维能(néng)力(lì)较(jiào)弱(ruò)等(děng)。还(hái)有(yǒu)大(dà)模(mó)型(xíng)在(zài)可(kě)控(kòng)性(xìng)和(hé)编(biān)辑(ji)能(néng)力(lì)上(shàng)较(jiào)弱(ruò),无(wú)法(fǎ)实现像传统数(shù)据(jù)库(kù)那(nà)样(yàng)精准地(de)删(shān)除(chú)或(huò)更(gèng)新(xīn)操(cāo)作(zuò),这(zhè)在(zài)行(xíng)业(yè)应(yīng)用(yòng)中(zhōng)带(dài)来(lái)了(le)较(jiào)大(dà)的(de)挑(tiāo)战(zhàn)。
在(zài)私(sī)域数(shù)据(jù)和(hé)专(zhuān)业(yè)数(shù)据(jù)的(de)理(lǐ)解上,大模型也有待提升。譬如,不同行业数据具有两个基本特点,其一是专业性强,例如工业传感器数据,如果没有专业背景知识,很难理解数据背后的(de)含(hán)义(yì);其(qí)二(èr)是(shì)私(sī)域数(shù)据(jù)的(de)表(biǎo)达(dá)有(yǒu)自(zì)身(shēn)独(dú)特(tè)性(xìng),例(lì)如(rú)不(bù)同(tóng)数(shù)据(jù)库(kù)中对“性别”的编码可能截然不同(如0和1分别代表男和女),这类私域数据编码通用大模型能否直接理解,也是大模型在行业落地时需要(yào)解(jiě)决(jué)的(de)关键问(wèn)题(tí)。
肖(xiào)仰(yǎng)华(huá)在(zài)演(yǎn)讲(jiǎng)中(zhōng)也(yě)提(tí)到(dào),企(qǐ)业(yè)在(zài)利(lì)用(yòng)大(dà)模(mó)型(xíng)做(zuò)数(shù)据(jù)处(chù)理(lǐ)与(yǔ)价(jià)值(zhí)变(biàn)现(xiàn)相(xiāng)关工(gōng)作(zuò)时(shí),也(yě)需(xū)关注(zhù)成(chéng)本(běn)问(wèn)题(tí),“大(dà)模(mó)型(xíng)的(de)运(yùn)行(xíng)存(cún)在(zài)成(chéng)本(běn),因(yīn)此(cǐ)通(tōng)常(cháng)采用(yòng)大(dà)模(mó)型(xíng)蒸(zhēng)馏(liú)小(xiǎo)模(mó)型(xíng)的(de)方(fāng)式(shì)以(yǐ)降(jiàng)低(dī)成(chéng)本(běn)。”大(dà)模(mó)型(xíng)主要(yào)用(yòng)于(yú)关键场(chǎng)合(hé),或(huò)在(zài)小(xiǎo)模(mó)型(xíng)及(jí)人(rén)工(gōng)难(nán)以(yǐ)处(chù)理(lǐ)的(de)复(fù)杂(zá)场(chǎng)景(jǐng)中(zhōng)发(fā)挥(huī)作(zuò)用(yòng),从(cóng)而(ér)优(yōu)化(huà)整(zhěng)体(tǐ)方(fāng)案(àn)的(de)成(chéng)本(běn)。
“我(wǒ)们(men)相(xiāng)信(xìn),在(zài)大(dà)模(mó)型(xíng)和(hé)人(rén)工(gōng)智(zhì)能(néng)技(jì)术(shù)的(de)助(zhù)力(lì)下,数据价值将很快被彻底激活。”肖仰华说。
