21世紀(jì)經(jīng)濟(jì)報(bào)道記者楊清清 北京報(bào)道
作為當(dāng)前人工智能發(fā)展的重要方向,預(yù)訓(xùn)練大模型已成為AI領(lǐng)域的技術(shù)新高地。
據(jù)不完全統(tǒng)計(jì),目前AI大模型已經(jīng)吸引了包括谷歌、微軟、英偉達(dá)、華為、百度、阿里等科技巨頭以及多個(gè)科研機(jī)構(gòu)參與其中,各家大模型的參數(shù)量級(jí)也從千億、萬(wàn)億,迅速提升至10萬(wàn)億級(jí)別。
不過(guò),在AI大模型熱度持續(xù)攀升的過(guò)程中,各家的布局重點(diǎn)有所不同。近日,鵬城實(shí)驗(yàn)室與百度聯(lián)合召開發(fā)布會(huì),正式發(fā)布雙方共同研發(fā)的鵬城-百度·文心(模型版本號(hào):ERNIE 3.0 Titan)。據(jù)介紹,該模型參數(shù)規(guī)模達(dá)到2600億,是目前全球最大中文單體模型,也是全球首個(gè)知識(shí)增強(qiáng)千億大模型。
“如果將這個(gè)模型的特點(diǎn)總結(jié)為一條,就是知識(shí)增強(qiáng)。”在接受包括21世紀(jì)經(jīng)濟(jì)報(bào)道在內(nèi)的媒體采訪時(shí),百度集團(tuán)副總裁吳甜分析稱,“同時(shí),在融入知識(shí)的基礎(chǔ)上,該模型也會(huì)進(jìn)行跨語(yǔ)言學(xué)習(xí)、跨模態(tài)學(xué)習(xí),從而體現(xiàn)出學(xué)習(xí)效率更高、學(xué)習(xí)能力更強(qiáng)的優(yōu)勢(shì)?!?/p>
知識(shí)增強(qiáng)大模型
鵬城-百度·文心知識(shí)增強(qiáng)大模型的最大特點(diǎn),在于其在學(xué)習(xí)過(guò)程中融入知識(shí),進(jìn)而實(shí)現(xiàn)將海量知識(shí)與海量數(shù)據(jù)進(jìn)行同時(shí)融合的學(xué)習(xí)。
在吳甜看來(lái),知識(shí)帶來(lái)的優(yōu)勢(shì)在于學(xué)習(xí)效率更高。據(jù)介紹,鵬城-百度·文心知識(shí)增強(qiáng)大模型在包括機(jī)器閱讀理解、文本分類、語(yǔ)義相似度計(jì)算等60多項(xiàng)任務(wù)上取得最好效果,并在30余項(xiàng)小樣本和零樣本任務(wù)上刷新基準(zhǔn)。
“這說(shuō)明模型本身的效果足夠好?!眳翘鸱治龇Q,“我們看到那60多個(gè)任務(wù)是各種各樣的不同任務(wù),體現(xiàn)出模型具備較好的通用性。同時(shí)在30多項(xiàng)小樣本、零樣本學(xué)習(xí)上,模型也取得了更好效果,意味著它的泛化能力更強(qiáng),在看到不同場(chǎng)景和任務(wù)的時(shí)候可以通過(guò)少量數(shù)據(jù)標(biāo)記就能實(shí)現(xiàn)良好效果?!?/p>
需要注意的是,早在今年1月,谷歌便發(fā)布了全球首個(gè)萬(wàn)億級(jí)模型Switch Transformer,參數(shù)規(guī)模達(dá)到1.6萬(wàn)億。11月,阿里巴巴達(dá)摩院公布的多模態(tài)大模型M6的參數(shù)規(guī)模更是躍升至10萬(wàn)億級(jí)別,成為全球最大的AI預(yù)訓(xùn)練模型。
相較之下,鵬城-百度·文心知識(shí)增強(qiáng)大模型的參數(shù)規(guī)模僅2600億,如何看待這樣的規(guī)模量級(jí)?
吳甜解釋稱,當(dāng)前AI預(yù)訓(xùn)練大模型分為“單體模型”和“混合專家模型”兩類。所謂單體模型也是稠密模型,具備稠密參數(shù),將所有數(shù)據(jù)中習(xí)得的規(guī)律都記錄在一張網(wǎng)絡(luò)內(nèi),使用時(shí)網(wǎng)絡(luò)上的任何點(diǎn)位都會(huì)被計(jì)算到,鵬城-百度·文心知識(shí)增強(qiáng)大模型正屬于此類。
“混合專家模型”則是稀疏模型,是由多個(gè)不同網(wǎng)絡(luò)通過(guò)門控機(jī)制集成在一起,在單次計(jì)算中可能只會(huì)使用部分子網(wǎng)絡(luò)的參數(shù)。目前,兩類大模型也代表了不同的AI預(yù)訓(xùn)練的技術(shù)方向。
“目前來(lái)說(shuō),我們能看到最大發(fā)布的單體模型是千億量級(jí)的,市面上的萬(wàn)億、十萬(wàn)億等都是混合專家模型?!眳翘鸨硎?,“到現(xiàn)在還沒(méi)有公開研究表明,萬(wàn)億乃至十萬(wàn)億的混合專家模型效果能夠媲美千億的單體模型,這個(gè)問(wèn)題本身還值得進(jìn)一步繼續(xù)研究?!?/p>
降低AI應(yīng)用門檻
大模型近年來(lái)受到追捧,并非沒(méi)有原因。
本輪的第三次人工智能浪潮中,伴隨著高性能計(jì)算機(jī)、因特網(wǎng)、大數(shù)據(jù)、傳感器的普及,以及計(jì)算成本的下降,“機(jī)器學(xué)習(xí)”隨之興起。所謂機(jī)器學(xué)習(xí)(Machine leaning),是指讓計(jì)算機(jī)大量學(xué)習(xí)數(shù)據(jù),使它可以像人類一樣辨識(shí)聲音及影像,或是針對(duì)問(wèn)題做出合適的判斷。
其中,最受關(guān)注的莫過(guò)于深度學(xué)習(xí),亦即透過(guò)模仿人腦的“類神經(jīng)網(wǎng)絡(luò)”(Neural network)來(lái)學(xué)習(xí)大量數(shù)據(jù)的手法。深度學(xué)習(xí)的演進(jìn)與發(fā)展則源自大數(shù)據(jù)、大算力、大模型三大支撐。
在吳甜看來(lái),從某種程度而言,這三大支撐要素也構(gòu)成了深度學(xué)習(xí)及人工智能技術(shù)的瓶頸所在,包括大量的數(shù)據(jù)標(biāo)注背后高昂的成本、數(shù)據(jù)標(biāo)注本身的天花板等都是難題所在。與之相對(duì)應(yīng)的,預(yù)訓(xùn)練技術(shù)則解決了讓算法在海量無(wú)標(biāo)記數(shù)據(jù)中進(jìn)行自監(jiān)督學(xué)習(xí),從而帶來(lái)技術(shù)上的突破與變化。
“隨著預(yù)訓(xùn)練技術(shù)的突破,幾乎可以認(rèn)為所有任務(wù)現(xiàn)在都是基于預(yù)訓(xùn)練機(jī)制實(shí)現(xiàn)全面的效果提升?!眳翘鸾忉尫Q,“而通過(guò)大算力平臺(tái)支撐,實(shí)現(xiàn)時(shí)間、模型體積、參數(shù)規(guī)模的增長(zhǎng),進(jìn)而便形成當(dāng)前一系列大模型的誕生?!?/p>
從這個(gè)角度而言,預(yù)訓(xùn)練大模型具備相當(dāng)?shù)膬r(jià)值。“大模型對(duì)于產(chǎn)業(yè)而言,其意義在于降低了AI應(yīng)用門檻?!眳翘鸨硎?。
在吳甜看來(lái),目前行業(yè)內(nèi)的AI技術(shù)應(yīng)用存在兩大困難。首先在于數(shù)據(jù)標(biāo)注非常昂貴,甚至在特定場(chǎng)景內(nèi)無(wú)法完成大批量批注,另一方面在行業(yè)應(yīng)用中,行業(yè)自身的知識(shí)積累至關(guān)重要。預(yù)訓(xùn)練大模型的推出,則能夠在不具備大量數(shù)據(jù)標(biāo)注的同時(shí)保證了技術(shù)基礎(chǔ)底座,疊加行業(yè)“基本功”便能夠?qū)崿F(xiàn)AI技術(shù)的快速落地。
據(jù)介紹,目前百度文心通過(guò)百度飛槳平臺(tái)陸續(xù)對(duì)外開源開放,并已大規(guī)模應(yīng)用于百度搜索、信息流、智能音箱等互聯(lián)網(wǎng)產(chǎn)品,同時(shí)通過(guò)百度智能云賦能工業(yè)、能源、金融、通信、媒體、教育等各行各業(yè)。