2018年,Yann LeCun:人工智能缺乏對(duì)世界的基本認(rèn)識(shí),甚至還不如家貓認(rèn)知水平。
2022年,Yann LeCun:人工智能依然沒有達(dá)到貓的水平。
最近,LeCun在Lex Fridman的采訪中表示,盡管只有8億個(gè)神經(jīng)元,但貓的大腦遠(yuǎn)遠(yuǎn)領(lǐng)先于任何大型人工神經(jīng)網(wǎng)絡(luò)。
貓和人類的共同基礎(chǔ)是對(duì)世界高度發(fā)達(dá)的理解,基于對(duì)環(huán)境的抽象表征,形成模型,例如,預(yù)測(cè)行為和后果。
對(duì)于人工智能來(lái)說,學(xué)習(xí)這種環(huán)境模型的能力就非常關(guān)鍵了。
此前,LeCun也曾表示過,「在我職業(yè)生涯結(jié)束前,如果AI能夠達(dá)到狗或者牛一樣的智商,那我已經(jīng)十分欣慰了」。
人工智能必須學(xué)會(huì)世界的表征
人工智能必須學(xué)會(huì)以與基于梯度的學(xué)習(xí)兼容的方式進(jìn)行思考和規(guī)劃
人工智能必須學(xué)習(xí)行動(dòng)規(guī)劃的分層表征
LeCun認(rèn)為第一個(gè)挑戰(zhàn)的解決方案是自監(jiān)督學(xué)習(xí)。
語(yǔ)言模型或圖像分析系統(tǒng)的成功表明,人工智能有能力創(chuàng)建復(fù)雜的世界模型。
就比如Meta AI在前段時(shí)間推出的第一個(gè)適用于多種模態(tài)的高性能自監(jiān)督算法——data2vec。
它可分別應(yīng)用于語(yǔ)音、圖像和文本,它的性能超過了以前最好的計(jì)算機(jī)視覺和語(yǔ)音的單一用途算法,而且在NLP任務(wù)上也具有競(jìng)爭(zhēng)力。
data2vec的提出代表了一種新的整體自監(jiān)督學(xué)習(xí)范式,不僅改進(jìn)了模型在多種模態(tài)下的表現(xiàn),同時(shí)也不依賴于對(duì)比性學(xué)習(xí)或重建輸入實(shí)例。
為此,LeCun也發(fā)文表示祝賀:「data2vec在ImageNet(視覺)、LibriSpeech(語(yǔ)音識(shí)別)和GLU(NLP)上的結(jié)果均優(yōu)于現(xiàn)有SOTA?!?/p>
然而,下一代人工智能將不再使用語(yǔ)言或圖像,而是直接從視頻中學(xué)習(xí)。
想象一下,你的增強(qiáng)現(xiàn)實(shí)設(shè)備準(zhǔn)確地顯示了如何在鼓課上握住木棒,指導(dǎo)你完成一個(gè)食譜,幫助你找到丟失的鑰匙,或者像全息圖一樣浮現(xiàn)出你的記憶。
為了實(shí)現(xiàn)這些新技術(shù),人工智能需要像我們一樣,從第一人稱的角度理解世界并與它互動(dòng),這在研究界,通常被稱為以第一人稱為中心的視覺感知。
然而,今天的計(jì)算機(jī)視覺(CV)系統(tǒng)從數(shù)以百萬(wàn)計(jì)的照片和視頻中學(xué)習(xí),盡管發(fā)展飛速,有了喜人的研究進(jìn)展,可這些照片和視頻都是以第三人稱視角拍攝的,相機(jī)的視角只是一個(gè)行動(dòng)的旁觀者視角。
2021年,Meta AI宣布的「Ego4D」(Egocentric 4D Perception)計(jì)劃, 這個(gè)雄心勃勃的長(zhǎng)期項(xiàng)目為的就是解決以第一人稱視覺為中心的感知領(lǐng)域的研究挑戰(zhàn)。
目前,已經(jīng)收集了來(lái)自全球9個(gè)不同國(guó)家74個(gè)地點(diǎn)的855名獨(dú)特參與者提供的3025小時(shí)視頻。
就拿過山車來(lái)說吧,你在上面體驗(yàn)著腎上腺素飆升的快感。而下面的人則是看得一臉懵比。
人工智能,就更懵了……如果把CV系統(tǒng)綁在過山車上,它估計(jì)完全不知道自己該看些什么。即便在地面上從旁觀者的角度看了幾十萬(wàn)張過山車的圖片或視頻,也是如此。
LeCun認(rèn)為,人工智能系統(tǒng)可以從這些視頻中了解我們世界的物理基礎(chǔ)。AI的理解將反過來(lái)成為眾多能力的基礎(chǔ),如抓取物體或駕駛汽車。
那么,當(dāng)解決了第一個(gè)挑戰(zhàn)之后,第二個(gè)挑戰(zhàn)的解決也就有了相應(yīng)基礎(chǔ)。
與人工智能研究之初不同的是,思維系統(tǒng)不應(yīng)該再由根據(jù)邏輯規(guī)則運(yùn)行符號(hào)系統(tǒng)組成,畢竟這些對(duì)世界的認(rèn)知是靠人工進(jìn)行編程的。
不過,對(duì)于第三個(gè)挑戰(zhàn),LeCun表示還沒有很好的解決方案。
一個(gè)要在現(xiàn)實(shí)世界中行動(dòng)的人工智能系統(tǒng),無(wú)論是作為機(jī)器人還是自動(dòng)駕駛汽車,都必須能夠預(yù)測(cè)其行動(dòng)的后果,并在每種情況下選擇最佳行動(dòng)。
目前來(lái)說,在例如控制機(jī)器人的手臂這種簡(jiǎn)單的情況下,已經(jīng)可以實(shí)現(xiàn)了。但在未來(lái),系統(tǒng)也需要能夠處理所有其他的情景。
「這不僅僅是關(guān)于火箭的軌跡或機(jī)械臂的運(yùn)動(dòng),這些都可以通過精細(xì)的數(shù)學(xué)建模來(lái)實(shí)現(xiàn),」LeCun表示,「模型涉及到我們?cè)谑澜缟嫌^察到的一切:人類的行為,涉及水或樹枝等現(xiàn)象的物理系統(tǒng)等等。而對(duì)于這些復(fù)雜的事物,人類是可以很容易地開發(fā)出抽象的表征和模型?!?/p>
就以圖像識(shí)別來(lái)說,雖然Meta的data2vec取得了相當(dāng)SOTA的成績(jī),但監(jiān)督學(xué)習(xí)仍然是最流行的方法。
也就是說,AI在工作之前需要「吃掉」大量的圖像和相關(guān)的標(biāo)注。其中,每個(gè)標(biāo)注都與非常多的圖像相關(guān)聯(lián),而這些圖像則代表了物體在不同角度和光線下的狀態(tài)等。
例如,為了讓人工智能程序能夠識(shí)別貓,就必須投入多達(dá)一百萬(wàn)張的照片,才能讓AI建立起一個(gè)物體的內(nèi)部視覺表征。但這種表征最終只是一種簡(jiǎn)單的描述,并沒有立足于任何現(xiàn)實(shí)。
人類可以從呼嚕聲、毛發(fā)貼在腿上的感覺、貓砂盆的微妙氣味等幾百種方法認(rèn)出一只「貓」,但這些對(duì)人工智能來(lái)說卻毫無(wú)意義。
于是這里就有了一個(gè)關(guān)于AI的「天問」。
如果它從不口渴,它能理解什么是飲料嗎?如果它從來(lái)沒有被燒過,它能理解火嗎?如果它從未打過寒顫,它能理解寒冷嗎?
當(dāng)一個(gè)算法「識(shí)別」一個(gè)物體時(shí),它根本不了解該物體的性質(zhì)。它只是與之前的例子進(jìn)行交叉檢驗(yàn)而已。
Yann LeCun,計(jì)算機(jī)科學(xué)家,為卷積神經(jīng)網(wǎng)絡(luò)和圖像識(shí)別領(lǐng)域作出了重要貢獻(xiàn),被譽(yù)為「卷積神經(jīng)網(wǎng)絡(luò)之父」。
Yann LeCun主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、移動(dòng)機(jī)器人和計(jì)算神經(jīng)科學(xué)等領(lǐng)域,他與Geoffrey Hinton、Yoshua Bengio并稱為機(jī)器學(xué)習(xí)的「三巨頭」。
他們3人共同獲得2018年圖靈獎(jiǎng),這被公認(rèn)為計(jì)算機(jī)領(lǐng)域的最高榮譽(yù)。
從左至右分別為:Yann LeCun、Geoffrey Hinton、Yoshua Bengio
Yann LeCun于1960年出生于法國(guó)巴黎,并一直在巴黎學(xué)習(xí),他于1983年獲得巴黎高等電工和電子工程學(xué)院(ESIEE)的電氣工程學(xué)士學(xué)位,1987年獲得巴黎皮埃爾和瑪麗居里大學(xué)(Pierre and Marie Curie)的計(jì)算機(jī)科學(xué)博士學(xué)位。
Yann LeCun的博士后研究轉(zhuǎn)去了加拿大,師從多倫多大學(xué)著名的Geoffrey Hinton教授。盡管,博士后生涯十分短暫,但,正是在這里開啟了師徒二人的合作研究,奠定了他們往后在機(jī)器學(xué)習(xí)領(lǐng)域的合作關(guān)系與重要成就。
此后,Yann LeCun緊跟Geoffrey Hinton教授的步伐,成了機(jī)器學(xué)習(xí)領(lǐng)域的重要人物!
1988年,Yann LeCun加入AT&T(美國(guó)電話電報(bào)公司)貝爾實(shí)驗(yàn)室,此后,他還擔(dān)任了圖像處理研究部主任。
正是在AT&T,他的研究取得了重大突破。Yann LeCun提出了一種新的方法,即卷積、池化和全連接層次結(jié)構(gòu),研究手寫數(shù)字分類,提出了卷積神經(jīng)網(wǎng)絡(luò),即LeNet。
美國(guó)郵政服務(wù)等機(jī)構(gòu)很快采用了類似的網(wǎng)絡(luò),以自動(dòng)完成繁瑣的分類工作,這個(gè)網(wǎng)絡(luò)在識(shí)別郵政編碼數(shù)字方面做得很好。
后來(lái),卷積神經(jīng)網(wǎng)絡(luò)成了當(dāng)前的深度神經(jīng)網(wǎng)絡(luò)的重要基石。
第五代LeNet DCNN(深度卷積神經(jīng)網(wǎng)絡(luò))
2003年,Yann LeCun去了紐約大學(xué)擔(dān)任教職,他指導(dǎo)紐約大學(xué)的數(shù)據(jù)科學(xué)倡議,并成為紐約大學(xué)數(shù)據(jù)科學(xué)中心的創(chuàng)始主任。
2013年底,他被任命為Facebook人工智能研究總監(jiān),后來(lái),擔(dān)任Meta公司的副總裁兼首席人工智能科學(xué)家。
2014年,Yann LeCun被IEEE(美國(guó)電氣與電子工程師協(xié)會(huì))授予「神經(jīng)網(wǎng)絡(luò)先鋒獎(jiǎng)」。
一直以來(lái),Yann LeCun都對(duì)「學(xué)習(xí)」這個(gè)問題很感興趣,這也直接決定了他日后的研究領(lǐng)域——「機(jī)器學(xué)習(xí)」。
Yann LeCun認(rèn)為,「學(xué)習(xí)是智慧中的重要部分」。
那么,當(dāng)前的機(jī)器學(xué)習(xí)發(fā)展到了什么程度呢?Yann LeCun在最近的訪談中,借用形象的比喻認(rèn)為,「AI依然沒有達(dá)到貓的水平」。
正是因?yàn)槿绱?,AI以及AI研究人員依然有很多事要做。Yann LeCun自認(rèn)為,「我不是一個(gè)好的理論科學(xué)家,我做的還行的是實(shí)現(xiàn),讓東西跑起來(lái)」。
對(duì)于他的成績(jī),Yann LeCun非常謙虛,他說:「我只是鉆到一群比我聰明的人里面去」。
讓Yann LeCun比較得意的一件事是,他一直在機(jī)器學(xué)習(xí)不斷往下挖,去發(fā)現(xiàn)問題背后真正的問題。
「把問題簡(jiǎn)化,再簡(jiǎn)化,直到達(dá)到真正的核心問題?!筜ann LeCun說,「要問最基本的問題,摒棄一切表面上的東西,直到得到一個(gè)簡(jiǎn)單得不可思議的問題?!?/p>
AI 的未來(lái)就在自監(jiān)督學(xué)習(xí)里。
參考資料:
https://mixed-news.com/en/metas-ai-chief-three-major-challenges-of-artificial-intelligence/
http://yann.lecun.com/ex/bio.html
https://thenextweb.com/news/why-your-cat-is-lousy-at-chess-yet-way-smarter-than-even-the-most-advanced-ai?utm_campaign=profeed&utm_medium=feed&utm_source=social
本文來(lái)自微信公眾號(hào)“新智元”(ID:AI_era),作者:新智元,36氪經(jīng)授權(quán)發(fā)布。
關(guān)鍵詞: 年了 獎(jiǎng)得主 圖靈