蛋白質(zhì)折疊問題被認(rèn)為是人類在21世紀(jì)需要解決的重要科學(xué)前沿問題之一。理解蛋白質(zhì)的結(jié)構(gòu)有助于確定蛋白質(zhì)的功能,了解各種突變的作用。
谷歌旗下的人工智能超大模型DeepMind在2021年準(zhǔn)確地預(yù)測(cè)了蛋白質(zhì)折疊成的結(jié)構(gòu)AlphaFold2,解決了一個(gè)延續(xù)了50年的“重大挑戰(zhàn)”,為更好地了解疾病和藥物發(fā)現(xiàn)鋪平道路。
大模型悟道1.0在推出時(shí)在醫(yī)療方面的一個(gè)應(yīng)用方向是癌癥早篩,如上傳乳腺癌圖像,找到乳腺癌相關(guān)預(yù)測(cè)亞類,通過影像識(shí)別宮頸癌亞類等。
而另一個(gè)超大規(guī)模AI模型GPT-3 所表現(xiàn)出來的零樣本與小樣本學(xué)習(xí)能力,則刷新了人們的認(rèn)知?;镜纳?、分類、搜索、問答應(yīng)用都已經(jīng)被開發(fā)成對(duì)應(yīng)的API,一個(gè)模型,對(duì)應(yīng)解決不同用戶的不同問題。
AI超大模型正在不同的領(lǐng)域表現(xiàn)出驚人的智能水平,給企業(yè)帶來更多的希望。谷歌、亞馬遜、微軟、英偉達(dá)、智源人工智能研究院、阿里、百度、華為、浪潮等國(guó)內(nèi)外科技巨頭紛紛展開大模型研究和探索。
2021年,預(yù)訓(xùn)練大模型迎來大爆發(fā),引爆AI大模型研究的熱潮。那么,2022年,AI大模型會(huì)給人們帶來哪些驚喜呢?
過去三年來,國(guó)外超大規(guī)模預(yù)訓(xùn)練模型參數(shù)指標(biāo)不斷創(chuàng)出新高,“大模型”已成為行業(yè)巨頭發(fā)力的一個(gè)方向。
國(guó)外的超大規(guī)模預(yù)訓(xùn)練模型起步于2018年,2021年進(jìn)入“軍備競(jìng)賽”階段。
2018年,谷歌提出3億參數(shù)BERT模型,驚艷四座,由此大規(guī)模預(yù)訓(xùn)練模型開始逐漸走進(jìn)人們的視野,成為人工智能領(lǐng)域的一大焦點(diǎn)。
2019年2月,OpenAI推出了15億參數(shù)的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機(jī)器翻譯等。
緊接著,英偉達(dá)推出了83億參數(shù)的Megatron-LM,谷歌推出了110億參數(shù)的T5,微軟推出了170億參數(shù)的圖靈Turing-NLG。
2020年6月,大模型迎來了一個(gè)分水嶺,OpenAI以1750億參數(shù)的GPT-3,直接將參數(shù)規(guī)模提高到千億級(jí)別。而作詩(shī)、聊天、生成代碼等無(wú)所不能。
之后,微軟和英偉達(dá)在2020年10月聯(lián)手發(fā)布了5300億參數(shù)的Megatron-Turing自然語(yǔ)言生成模型(MT-NLG)。
2021 年 1 月,谷歌推出的Switch Transformer模型以高達(dá)1.6 萬(wàn)億的參數(shù)量打破了GPT-3作為最大AI模型的統(tǒng)治地位,成為史上首個(gè)萬(wàn)億級(jí)語(yǔ)言模型。
2021年,12月,谷歌還提出了1.2萬(wàn)億參數(shù)的通用稀疏語(yǔ)言模型GLaM,在7項(xiàng)小樣本學(xué)習(xí)領(lǐng)域的性能超過GPT-3。
國(guó)內(nèi),超大模型研發(fā)厚積薄發(fā),充分展示了中國(guó)企業(yè)的技術(shù)實(shí)力和應(yīng)用需求。
2021年是中國(guó)超大規(guī)模AI模型的爆發(fā)年。在國(guó)內(nèi)超大模型研發(fā)比國(guó)外公司晚,但是發(fā)展卻異常的迅速。
4月,華為云聯(lián)合循環(huán)智能發(fā)布盤古NLP超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,參數(shù)規(guī)模達(dá)1000億;聯(lián)合北京大學(xué)發(fā)布盤古α超大規(guī)模預(yù)訓(xùn)練模型,參數(shù)規(guī)模達(dá)2000億。
阿里達(dá)摩院發(fā)布270億參數(shù)的中文預(yù)訓(xùn)練語(yǔ)言模型PLUG,聯(lián)合清華大學(xué)發(fā)布參數(shù)規(guī)模達(dá)到1000億的中文多模態(tài)預(yù)訓(xùn)練模型M6。
6 月,北京智源人工智能研究院發(fā)布了超大規(guī)模智能模型“悟道 2.0”,參數(shù)達(dá)到 1.75 萬(wàn)億,成為當(dāng)時(shí)全球最大的預(yù)訓(xùn)練模型。
7月,百度推出ERNIE 3.0 知識(shí)增強(qiáng)大模型,參數(shù)規(guī)模達(dá)到百億。10月,浪潮發(fā)布約2500億的超大規(guī)模預(yù)訓(xùn)練模型“源1.0”。
12月,百度推出ERNIE 3.0 Titan模型,參數(shù)規(guī)模達(dá)2600億。而達(dá)摩院的M6模型參數(shù)達(dá)到10萬(wàn)億,將大模型參數(shù)直接提升了一個(gè)量級(jí)。
AI超大模型爆發(fā)的原因是什么?
中國(guó)軟件網(wǎng)認(rèn)為,AI超大模型爆發(fā)的原因有三:
一是需要且必要。AI對(duì)企業(yè)的滲透率逐年提升,正在加速進(jìn)入不同的行業(yè)。但AI的短板如AI應(yīng)用的碎片化等卻越來越凸顯。
具體而言,一個(gè)團(tuán)隊(duì)開發(fā)了一個(gè)AI模型,但在應(yīng)用過程中,往往會(huì)因?yàn)閳?chǎng)景的多樣性、復(fù)雜性,無(wú)法達(dá)到“以一敵十”的效果。
強(qiáng)悍地自我學(xué)習(xí)、應(yīng)萬(wàn)變的能力,正讓大模型“需要且必要”。
二是預(yù)訓(xùn)練模型技術(shù)問題被化解。2018年出現(xiàn)的預(yù)訓(xùn)練模型成功激活了深度神經(jīng)網(wǎng)絡(luò),以及對(duì)大規(guī)模無(wú)標(biāo)注數(shù)據(jù)的自監(jiān)督學(xué)習(xí)能力,并在一定程度上打開了深度學(xué)習(xí)模型規(guī)模與性能齊飛的局面,尤其是自然語(yǔ)言處理。
同時(shí),大模型對(duì)一些復(fù)雜性問題的解決帶來了希望。國(guó)際巨頭們?cè)趪L到預(yù)訓(xùn)練模型帶來的“甜頭”之后,開始展開了激烈的競(jìng)爭(zhēng),競(jìng)相追逐模型規(guī)模和性能的新高度。
三是更多示范應(yīng)用案例出現(xiàn)。在商業(yè)落地方面成果豐碩的大模型GPT-3,已經(jīng)有300多個(gè)衍生應(yīng)用,其相關(guān)創(chuàng)業(yè)公司也有好幾十個(gè),有些公司還拿到了融資。
在“悟道2.0”的基礎(chǔ)上,OPPO小布助手建設(shè)了直接給出開放域長(zhǎng)尾問題答案的能力。
智源研究院院長(zhǎng)、北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授黃鐵軍表示,近年來人工智能的發(fā)展應(yīng)該從家家戶戶“大煉模型”的狀態(tài),逐漸變?yōu)榘奄Y源匯聚起來,訓(xùn)練超大規(guī)模模型的階段,通過設(shè)計(jì)先進(jìn)的算法,整合盡可能多的數(shù)據(jù),匯聚大量算力,集約化地訓(xùn)練大模型,供大量企業(yè)使用。
預(yù)訓(xùn)練大模型發(fā)展的首要特點(diǎn)就是降低了AI應(yīng)用的門檻。
作為當(dāng)前人工智能發(fā)展的重要方向,預(yù)訓(xùn)練大模型已成為AI領(lǐng)域的技術(shù)新高地。
據(jù)介紹,目前行業(yè)內(nèi)的AI技術(shù)應(yīng)用存在兩大困難:一是數(shù)據(jù)標(biāo)注非常昂貴,特定場(chǎng)景內(nèi)無(wú)法完成大批量數(shù)據(jù)批注;二是行業(yè)自身的知識(shí)積累相對(duì)較弱。
預(yù)訓(xùn)練大模型降低了AI應(yīng)用的門檻,解決了AI 應(yīng)用的數(shù)據(jù)和行業(yè)知識(shí)兩個(gè)難題,既不需要大量的標(biāo)注數(shù)據(jù),又保障了基礎(chǔ)底座。
預(yù)訓(xùn)練大模型的推出,則能夠在不具備大量數(shù)據(jù)標(biāo)注的同時(shí)保證了技術(shù)基礎(chǔ)底座,疊加行業(yè)“基本功”,便能夠?qū)崿F(xiàn)AI技術(shù)的快速落地。
AI預(yù)訓(xùn)練大模型的規(guī)模和性能不斷推向新的高度,打開了深度學(xué)習(xí)模型規(guī)模與性能齊飛的局面。
在GPU多機(jī)多卡算力和海量無(wú)標(biāo)注文本數(shù)據(jù)的雙重支持下,預(yù)訓(xùn)練模型打開了深度學(xué)習(xí)模型規(guī)模與性能齊飛的局面,成為人工智能和深度學(xué)習(xí)領(lǐng)域的革命性突破,引發(fā)了國(guó)際著名互聯(lián)網(wǎng)企業(yè)和研究機(jī)構(gòu)的激烈競(jìng)爭(zhēng),將模型規(guī)模和性能不斷推向新的高度。
預(yù)訓(xùn)練語(yǔ)言模型是讓AI具備認(rèn)知能力的關(guān)鍵技術(shù),突破了傳統(tǒng)深度學(xué)習(xí)方法的瓶頸,是一種新型AI訓(xùn)練思路。
預(yù)訓(xùn)練語(yǔ)言模型即首先自動(dòng)學(xué)習(xí)大量語(yǔ)言文字和圖像數(shù)據(jù),記憶和理解人類豐富的先驗(yàn)知識(shí),再進(jìn)一步學(xué)習(xí)專業(yè)領(lǐng)域信息,從而讓AI同時(shí)掌握常識(shí)和專業(yè)知識(shí)。
目前,谷歌、微軟和 Facebook等企業(yè)已投入該技術(shù)的研發(fā)。
與經(jīng)典的機(jī)器學(xué)習(xí)流程相比,預(yù)訓(xùn)練語(yǔ)言模型具有參數(shù)規(guī)模大、模型通用能力強(qiáng)、模型綜合性能好等優(yōu)勢(shì)。
因此,大規(guī)模預(yù)訓(xùn)練模型成為自然語(yǔ)言處理甚至整個(gè)人工智能領(lǐng)域的重要技術(shù)突破,有望將數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)技術(shù)推向新的發(fā)展階段。
AI預(yù)訓(xùn)練大模型的參數(shù)不斷飆升,采用單體模型和混合模型兩種技術(shù)路線。
在2021年1月,谷歌發(fā)布了全球首個(gè)萬(wàn)億級(jí)模型Switch Transformer。11月,阿里巴巴達(dá)摩院的多模態(tài)大模型M6的參數(shù)規(guī)模更是躍升至10萬(wàn)億級(jí)別。參數(shù)數(shù)量成為AI預(yù)訓(xùn)練大模型規(guī)模的一個(gè)衡量指標(biāo)。
現(xiàn)在業(yè)界提高模型參數(shù)數(shù)量主要有兩種技術(shù)路線:
一種是單體模型,將所有數(shù)據(jù)中學(xué)習(xí)得到的規(guī)律都記錄在一張網(wǎng)絡(luò)內(nèi),使用時(shí)網(wǎng)絡(luò)上的任何點(diǎn)位都會(huì)被計(jì)算到。
浪潮的源大模型、華為的盤古大模型、百度的文心大模型、英偉達(dá)聯(lián)合微軟發(fā)布的自然語(yǔ)言生成模型MT-NLG等走的都是單體模型路線。
另一種是混合模型,由多個(gè)不同網(wǎng)絡(luò)通過門控機(jī)制集成在一起,在單次計(jì)算中可能只會(huì)使用部分子網(wǎng)絡(luò)的參數(shù)。智源的悟道模型、阿里M6等走的就是混合模型路線。
阿里達(dá)摩院M6三連跳:萬(wàn)億、商用、低功耗。
2021年1月,阿里達(dá)摩院M6達(dá)成百億參數(shù),3月達(dá)成千億參數(shù),5月在全球范圍內(nèi)首次大幅降低了萬(wàn)億參數(shù)超大模型的訓(xùn)練能耗,12月參數(shù)達(dá)到10萬(wàn)億。
其中達(dá)摩院訓(xùn)練出萬(wàn)億參數(shù)模型M6,僅僅使用了480卡V100 32G GPU,節(jié)省算力資源超80%,且訓(xùn)練效率提升近11倍。
M6擁有超越傳統(tǒng)AI的認(rèn)知和創(chuàng)造能力,擅長(zhǎng)繪畫、寫作、問答,在電商、制造業(yè)、文學(xué)藝術(shù)等諸多領(lǐng)域擁有廣泛應(yīng)用前景。
M6還是國(guó)內(nèi)首個(gè)實(shí)現(xiàn)商業(yè)化落地的多模態(tài)大模型。例如,經(jīng)過一段時(shí)間的試用,M6將作為AI助理設(shè)計(jì)師正式上崗阿里新制造平臺(tái)犀牛智造。
百度ERNIE 3.0 Titan:知識(shí)增強(qiáng)體現(xiàn)出學(xué)習(xí)效率更高、學(xué)習(xí)能力更強(qiáng)的優(yōu)勢(shì)。
鵬城實(shí)驗(yàn)室與百度共同研發(fā)的鵬城-百度·文心(ERNIE 3.0 Titan)模型參數(shù)規(guī)模達(dá)到2600億。
知識(shí)增強(qiáng)是該大模型的最大特點(diǎn),在學(xué)習(xí)過程中融入知識(shí),進(jìn)而實(shí)現(xiàn)將海量知識(shí)與海量數(shù)據(jù)融合學(xué)習(xí)。
同時(shí),在融入知識(shí)的基礎(chǔ)上,該模型也會(huì)進(jìn)行跨語(yǔ)言學(xué)習(xí)、跨模態(tài)學(xué)習(xí),從而體現(xiàn)出學(xué)習(xí)效率更高、學(xué)習(xí)能力更強(qiáng)的優(yōu)勢(shì)。
ERNIE 3.0 Titan在包括機(jī)器閱讀理解、文本分類、語(yǔ)義相似度計(jì)算等60多項(xiàng)任務(wù)上取得好的效果,并在30余項(xiàng)小樣本和零樣本任務(wù)上刷新基準(zhǔn)。
浪潮人工智能研究院“源1.0”,以開放API、開放數(shù)據(jù)集、開源代碼等多種形式開放合作。
浪潮人工智能研究院的浪潮源1.0大模型在算法、數(shù)據(jù)、算力三個(gè)層面上實(shí)現(xiàn)超大規(guī)模,其中在算法上,大模型總共用了 2457億的參數(shù),超過1750億參數(shù)的GPT-3。
在數(shù)據(jù)上,研制高質(zhì)量文本分類模型,形成新中文數(shù)據(jù)集生成方法,最終獲得5000GB高質(zhì)量數(shù)據(jù)集,是迄今業(yè)界最大的高質(zhì)量中文數(shù)據(jù)集。
在算力上,共4095PD(PetaFlop/s-day)的計(jì)算量,獲得高達(dá)2457億的參數(shù)量,相對(duì)于GPT-3消耗3640PD計(jì)算量得到1750億參數(shù),源1.0大模型計(jì)算效率大幅提升。
2021年10月,源1.0宣布開源開放計(jì)劃,將以開放API、開放數(shù)據(jù)集、開源代碼等多種形式為業(yè)界提供開放合作,用戶可基于“源1.0”模型探索算法創(chuàng)新以及開發(fā)各類智能化應(yīng)用。
華為云盤古大模型:實(shí)現(xiàn)人工智能工業(yè)化開發(fā)。
于2021年4月亮相的華為云盤古大模型括中文語(yǔ)言(NLP)、視覺(CV)大模型,多模態(tài)大模型、科學(xué)計(jì)算大模型,旨在建立一套通用、易用的人工智能開發(fā)工作流,實(shí)現(xiàn)人工智能工業(yè)化開發(fā)。
未來,華為云盤古預(yù)訓(xùn)練大模型將上線華為云AI資產(chǎn)共享社區(qū)(AI Gallery)。
盤古研發(fā)團(tuán)隊(duì)將繼續(xù)對(duì)盤古多模態(tài)大模型進(jìn)行迭代演進(jìn),持續(xù)開發(fā)上游通用能力。
同時(shí)也會(huì)將把大模型拓展到更多的行業(yè)領(lǐng)域,讓盤古多模態(tài)大模型演化成諸多盤古行業(yè)多模態(tài)大模型,加速盤古系列預(yù)訓(xùn)練大模型的“上天”(通用能力打造)與“入地”(行業(yè)落地)步伐。
悟道:大模型變得更加好用、易用。
北京智源人工智能研究院自2020年10月啟動(dòng)大模型研究,2021年3月發(fā)布我國(guó)首個(gè)超大規(guī)模智能信息模型“悟道1.0”,訓(xùn)練出包括中文、多模態(tài)、認(rèn)知、蛋白質(zhì)預(yù)測(cè)在內(nèi)的系列模型,并在模型預(yù)訓(xùn)練范式、規(guī)模和性能擴(kuò)增技術(shù)、訓(xùn)練語(yǔ)料數(shù)據(jù)庫(kù)建設(shè)等方面取得了多項(xiàng)國(guó)際領(lǐng)先的技術(shù)突破。
2021年6月參數(shù)規(guī)模高達(dá)1.75萬(wàn)億“悟道2.0”推出。智源正在做的即是將悟道的應(yīng)用門檻降下來,將AI的效率和情商提起來,給更多人帶來便利。
無(wú)論是降低AI大模型開發(fā)門檻的悟道開發(fā)平臺(tái),還是“一卡頂四卡”的高效推理工具包、4倍提速4倍清晰的AI文圖繪畫、最大中文對(duì)話模型等技術(shù)創(chuàng)新,都讓悟道大模型變得更加好用、易用。
那么,在預(yù)訓(xùn)練大模型發(fā)展中,面臨最大問題是什么,未來的發(fā)展方向又在哪兒呢?
隨著模型規(guī)模擴(kuò)大的是訓(xùn)練對(duì)資源的消耗越來大,而參數(shù)數(shù)量增加所帶來的性能提升與消耗提升不成比例。
在這方面,不少研究開始對(duì)“模型參數(shù)越多,性能也越好”是否始終成立提出了質(zhì)疑。
例如,谷歌的研究人員開發(fā)了一個(gè)參數(shù)量遠(yuǎn)小于GPT-3的模型——微調(diào)語(yǔ)言網(wǎng)絡(luò)(fine-tuned language net, FLAN),這個(gè)1370億個(gè)參數(shù)的模型在許多有難度的基準(zhǔn)測(cè)試中性能都大幅超過GPT-3。
阿里達(dá)摩院在發(fā)布的報(bào)告里認(rèn)為,未來大模型的參數(shù)規(guī)模發(fā)展將進(jìn)入冷靜期,大模型與相關(guān)聯(lián)的小模型協(xié)同將是未來的發(fā)展方向。
其中,大模型沉淀的知識(shí)與認(rèn)知推理能力向小模型輸出,小模型基于大模型的基礎(chǔ)疊加垂直場(chǎng)景的感知、認(rèn)知、決策、執(zhí)行能力,再將執(zhí)行與學(xué)習(xí)的結(jié)果反饋給大模型,讓大模型的知識(shí)與能力持續(xù)進(jìn)化,形成一套有機(jī)循環(huán)的智能系統(tǒng)。參與者越多,模型進(jìn)化的速度也越快。
大模型正在誕生不同應(yīng)用領(lǐng)域的小模型或者應(yīng)用。
阿里達(dá)摩院預(yù)測(cè),在未來的三年內(nèi),個(gè)別領(lǐng)域?qū)⒁源笠?guī)模預(yù)訓(xùn)練模型為基礎(chǔ),對(duì)協(xié)同進(jìn)化的智能系統(tǒng)進(jìn)行試點(diǎn)探索。
在未來的五年內(nèi),協(xié)同進(jìn)化的智能系統(tǒng)將成為體系標(biāo)準(zhǔn),讓全社會(huì)能夠容易地獲取并貢獻(xiàn)智能系統(tǒng)的能力,向通用人工智能再邁進(jìn)一步。
對(duì)預(yù)訓(xùn)練大模型的性能優(yōu)化仍在持續(xù)推進(jìn)中。
相對(duì)而言,大量研究在預(yù)訓(xùn)練模型的落地能力上將持續(xù)努力,壓縮、剪枝、蒸餾的工作仍起到重要作用。不止于算法本身,編譯、引擎、硬件等方面的優(yōu)化也在大步邁進(jìn)。
整體而言,現(xiàn)在大規(guī)模預(yù)訓(xùn)練模型的研究,包括模型結(jié)構(gòu)的演進(jìn)和落地仍處在探索階段,各家的持續(xù)探索正在不斷擴(kuò)大對(duì)大規(guī)模預(yù)訓(xùn)練模型的認(rèn)知邊界。
毫不諱言,AI超大模型應(yīng)該成為普惠性的科技進(jìn)步力量,讓行業(yè)用戶甚至是中小用戶也能使用超大模型尋求深度創(chuàng)新,促進(jìn)業(yè)務(wù)可持續(xù)健康發(fā)展。
這一成果的取得必須依靠更多的產(chǎn)、學(xué)、研、用機(jī)構(gòu)和開發(fā)者,從技術(shù)創(chuàng)新、場(chǎng)景融合、應(yīng)用開發(fā)等不同維度,共同促進(jìn)AI超大模型的健康發(fā)展與產(chǎn)業(yè)落地。
本文來自微信公眾號(hào)“中智觀察”(ID:Hapiweb-soft6),作者:趙滿滿,編輯:小瑞瑞,36氪經(jīng)授權(quán)發(fā)布。