正在閱讀:

聊聊大模型如何思考與深度學習科學家Yann LeCun

掃一掃下載界面新聞APP

聊聊大模型如何思考與深度學習科學家Yann LeCun

大模型的可解釋性。

文 | 硅谷101 泓君

隨著近兩年來生成式AI技術的進步與普及,使用大模型來生成內容也已逐漸成為普通人生活的一部分。這個過程看起來似乎很輕松:當我們輸入一個指令,大模型就直接能為我們輸出答案。然而在這背后,模型內部的工作原理和模型決策過程卻并沒有人知道,這即是廣為人知的“機器學習黑盒”。

因為黑盒模型所存在的不可解釋性,AI的安全問題也一直備受質疑。于是科學家們開始試圖去打開大模型的黑盒子,業(yè)內稱之為“白盒研究”。一方面,白盒模型的研究能幫助人們理解黑盒模型,從而對大模型進行優(yōu)化和效率的提升。另一方面,白盒研究的目標是要把AI這一工程性學科推向科學。

此次,我們邀請到了加州大學戴維斯分校電子與計算機工程系助理教授陳羽北,他的研究內容就與“白盒模型”有關。此外,他也是圖靈獎獲得者、Meta首席科學家Yann LeCun的博士后。本期節(jié)目中,他和我們聊了聊白盒模型的最新研究進展,同時也向我們分享了他所熟悉的這位經歷過AI行業(yè)起起伏伏、卻依然純粹專注的科學家Yann LeCun。

以下是部分訪談精選

01 人腦與大模型

《硅谷101》:可以先簡單介紹一下你正在做的“白盒模型”研究嗎?在你的研究過程中有沒有發(fā)現(xiàn)如何能去解釋 GPT 的輸入輸出問題?

陳羽北:這個方向其實一個比較大的目標就是深度學習從一門純經驗性學科向一個科學學科來推動,或者說把工程變成科學,因為目前工程發(fā)展得比較快但科學相對緩慢。以前有一個模型叫做詞的嵌入(embedding),它可以學到語言的一些表征。

大家當時其實就有一個疑問,我們做任務的性能變好了,可是究竟是什么導致這個性能變好了?所以我們當時做過一個非常早期的工作,就是嘗試打開詞匯的這些表示。當你把它打開的時候,就會發(fā)現(xiàn)一些很有意思的現(xiàn)象。

比如說蘋果這個詞,你可以找到里面的一些元意思,比如其中的一個意思可能就是代表水果,另外一個意思代表甜點,再往下挖會找到有技術和產品的意思,當然指的是蘋果公司的產品。所以你就會發(fā)現(xiàn)順著一個詞你能找到這些元意思,接著你就可以把這樣的方法延伸到大語言模型里。

也就是說,當我們學完一個大語言模型以后,可以在模型里面去尋找它里面所帶有的一些元意思,然后嘗試去打開。你會發(fā)現(xiàn)一個大語言模型,它其實有很多層。

在初級層里,它會出現(xiàn)一個現(xiàn)象叫“詞語的消歧”。比如像在英文里面有個詞叫做“l(fā)eft”,這個詞它既有向左轉的意思,也有離開的過去式的意思,那么它具體的意思則要取決于語境前后的上下文,所以大語言模型在初期的幾層里就完成了詞語的消歧。

而在中期你會發(fā)現(xiàn)又有一些新的意思產生。當時我們覺得一個很好玩的事叫做“單位轉換”,一旦要將公里變成英里、溫度從華氏度變成攝氏度的時候就會被激活,這個意思就會被打開,你可以順著這個路找到很多相似級別的這種元意思。

你再往上走的時候甚至會發(fā)現(xiàn)這些元意思中存在一種規(guī)律,這種規(guī)律就是當上下文里出現(xiàn)了一個重復的意思時它就會被激活,你就可以用這樣的方式去打開大語言模型以及小語言模型。當然這些思路也并不完全是新的,它在視覺模型里其實已經有一段歷史了,比如說從Matthew Zeiler開始就有一些類似探索。

《硅谷101》:順著這個思路,是不是如果我們知道了它部分是怎么運作的,就可以從工程上對它有很多優(yōu)化?

陳羽北:是的,這個是一個非常好的問題。我覺得做任何理論一個比較高的要求就是可以指導實踐,所以在我們當時做語言模型還有詞匯表征的時候,當時也有的一個目標,就是當我們理解以后,能不能反過來優(yōu)化這些模型?其實是可以的。

舉一個例子,如果你在大語言模型里面找到的一個元意思,當它看到某一種元意思的時候就會激活,那這一個神經元就可以被作為一個判別器,你就可以用這個東西來做一些任務。通過對這些元意思的改變,來調節(jié)模型的偏見。

就是如果我能夠發(fā)現(xiàn)它,那我可以調整它。最近 Anthropic 他們就是做了類似的一個工作,就是找到語言模型里邊可能存在的一些偏見,然后對它進行一些改變來使這個模型變得更加的公平和安全。

《硅谷101》:我看到去年 OpenAI 也有一項研究,就是用 GPT4 去解釋 GPT2,看 GPT2到底是怎么工作的。比如說他們發(fā)現(xiàn)GPT 2的神經元在回答所有跟美國歷史1800年前后的事情時,第5行的第12個神經元會被激活,在回答中文的時候是第12行的第13個神經元被激活。

如果把它回答中文的這個神經元關閉的話,它對中文的理解能力就會大幅的下降。但是越往后的神經元,比如當神經元到了2000排左右的時候那它整個的可信度就已經下降了很多。你有沒有注意到他們的這個研究?

OpenAI的研究:讓GPT4去解釋GPT2的神經元

陳羽北:這篇文章我還沒看過,不過這個方法它非常像是給大腦的神經元做手術。相當于現(xiàn)在如果有一個神經的網絡,這個網絡是指從某種意義上能找到一個局部的存在而不是完全分散的,那么就可以對它進行一些操作。比如把某個神經元切掉了,那你就可以認為它某一塊的能力相對來講就損失掉了。

人其實也是一樣的,比如一個患有癲癇的人在做完手術后可能會出現(xiàn)某些語言的障礙,但并不太影響其他人體功能,這從原理上看起來是相似的。

《硅谷101》:OpenAI、Anthropic他們現(xiàn)在都在研究大模型的可解釋性,你的研究跟他們之間有什么區(qū)別嗎?

陳羽北:白盒模型的研究是否將來能成功其實大家都不知道,我之前也跟我的導師討論過,但大家一致的看法是說這件事值得嘗試。如果我們回到這一塊的話,我們的研究想做的其實是想理解人工智能,并且通過我們的理解重構它,進而從根本上來構建出一些不一樣的東西。那么觀測,也就是可解釋性我覺得只是一種手段。

也就是說,打開這種模型也好,我做這些實驗也好,對模型進行一些調整也好,我認為這都是我們在理解的過程中所嘗試的一些手段,但是白盒模型真正重要的還是要回到這個信號本身。因為不管是人腦也好,機器也好,它們的學習的本質都因為信號。

我們這個世界中存在一些結構,他們也要通過這些結構來進行學習,學的也正是這些結構。那么我們是否可以找到這些結構背后的規(guī)律,以及表示他們的一些數(shù)學工具再把這些東西進行重組進而構建出來一個不一樣的模型?如果這件事可以完成的話,我想就能帶來關于提高我們的系統(tǒng)的魯棒性,或者安全性和可信度的一種期望。

另外,它的效率也會提高。這有點像是蒸汽機先出來之后才出現(xiàn)了熱力學這種理論,從而支撐它從一門完全的工匠學科變成了一門科學。那么同理,今天我們就好像是第一次在數(shù)據上有了蒸汽機,從以前不理解我們的數(shù)據,到現(xiàn)在終于可以開始做出來一些 AI 的算法把數(shù)據中的規(guī)律給抓出來。

《硅谷101》:所以它會更節(jié)能。

陳羽北:要說到節(jié)能,我可以舉幾個有意思的例子。第一個點肯定是節(jié)能,因為大腦它相當于一個20瓦功耗的一個燈泡,那現(xiàn)在的超級計算機它可能要超過百萬瓦。

第二點是,如果我們看自然界各種各樣生物所進行演化,它的演化效率其實是非常高的。比如有一種特殊蜘蛛叫Jumping Spider,它只有幾百萬個神經元,但它可以做出非常復雜的三維的群線去捕捉它的獵物。

而我覺得最有意思的一件事兒是人對于數(shù)據使用的效率。Llama3現(xiàn)在的數(shù)據量大概已經達到了13萬億個Token。但人的一生當中到底能接收多少的數(shù)據呢?假設我們每秒可以獲得30幀圖像,每天的獲取時間是12個小時,做20年,那么我們大概能得到100億個token,文字能獲取的也是差不多一樣,數(shù)據量比大模型小太多了。

那么問題來了,人究竟是如何通過如此少的一個數(shù)據量來獲得如此強的一個泛化能力的呢?這就是人腦在效率層面讓我覺得很神奇的一點。

《硅谷101》:去揭開大模型是怎么運作的和跟揭開人腦是怎么運作的哪個更難?我聽起來都很難。

陳羽北:這兩者各有各的難法,但在方法上是相似的。不管是人腦還是大語言模型,我們都是嘗試去觀測它,看它對什么產生了響應。

這個方法其實從上個世紀80年代獲得諾貝爾生理學獎得主David Hubel和Torsten Weisel關于視覺皮層的研究中就能看到。他們找到了一種Simple Cell,嘗試研究人看到什么東西的時候這些神經元它會產生沖動,分析看不同的東西時候神經元不同的響應狀態(tài),比如什么時候完全不響應,什么時候又很興奮,接著他們就找到了神經元的 Receptive field。

D.H.Hubel和T.N.Wiesel, 1981年諾貝爾生理學或醫(yī)學獎獲得者

而我們今天研究大語言模型其實也是相似的,找不同的輸入,然后理解模型內部的哪些神經元是對哪些輸入感興趣的。不過它們仍然有區(qū)別。

第一個區(qū)別是,不管是通過插電極還是腦機接口等方法對人腦進行觀測,都有很多的限制,但大語言模型有一個天然的好處就是觀測手段不再受限了,如果你有更好的方法,你就可以長期去分析,甚至你還可以通過一些微分的方法對模型進一步分析。

但是它的缺點是,大模型的能力還遠遠不及大腦,尤其是大語言模型,因為它只從語言里面來學習這個世界,所以它的對世界是理解是不完整的,就好像一個人他沒有了其他的感官只有語言。

相比之下,大腦能處理更多維的信號,感官是非常豐富的。有時候我們會想一個問題,就是語言是否是完備的?如果沒有其他感官的支撐的話,語言里邊是不是所有的概念都可以獨立存在,還是一定需要其他感官作為支撐,才有可能實現(xiàn)真正的理解。

舉個例子,“冰箱”這個東西如果不和現(xiàn)實世界的冷熱感受關聯(lián),只是描述它有門等這種統(tǒng)計特征,是不是這種描述就是不完備的。

《硅谷101》:所以其實目前大模型跟大腦相比,它還是欠缺非常多的。但是因為我們可以把它拆開來研究,所以你覺得它還是會比揭開大腦的秘密的這個野心稍微更進一步。

陳羽北:理解大語言模型它的難度在于你觀測的手段多,對它理解也能更多。比如有兩臺機器,一臺機器完全可觀測,一臺機器部分可觀測,那從直覺上來講是完全可觀測的這臺機器就更容易被理解。當然它有一些能力是這臺機器沒有,所以不能取代對人腦的一些理解。

《硅谷101》:我跟聽眾也補充介紹一下,羽北之前是學神經科學的。那你覺得對你的學科背景對現(xiàn)在來做 AI 方向的研究有什么幫助嗎?會不會有一些跨學科的可以相互借鑒的研究方法?

陳羽北:我其實也不是專業(yè)學計算神經科學的。我本科是在清華的電子系,在伯克利是電子工程計算機系,但當時我所在的研究所是一個神經科學的一個研究所,所以我導師是計算神經科學的專家。

關于剛才那個問題,我覺得神經科學的學習對我來講的幫助通常是一種啟發(fā)。因為當你知道自然界的這些系統(tǒng),知道它們可以做到什么的時候,你可能就會有不一樣的想法,會重新看待眼前的問題。

舉個例子,一張圖片它是一個二維輸入信號,它的像素有橫向的、縱向的,然后它形成一個網格。但人眼視網膜并不長這樣。首先它是種擁有不同感知的感受器,這個感受器是以非常密集但又不是非常規(guī)則的方式排布的,它中間非常的細密,向兩邊的時候會變得稀疏。

當你面對這樣一個輸入信號的時候,首先我們習以為常的卷積神經網絡這些東西就都失效了,因為連卷積在這里都沒有定義。所以當看到生物系統(tǒng)里的這個情況,就會重新去想我們所謂的這些卷積到底從何而來。

《硅谷101》:所以你會重新去想方法是不是對的?是不是一定要以這種方式來實現(xiàn)?

陳羽北:是的。就是假設有一天你醒來,所有的神經元都打亂了,那你還能再去理解這個世界嗎?因為你看到的已經不再是一張圖片了,你也不能再用卷積神經網絡來做這件事情了,你需要什么樣的方法?

雖然我們還沒完全解決這個問題,其實目前也已經走了一步。雖然我的所有的神經元都打亂了,就是我們的感受器圖像里邊的這些像素打亂了,可是相鄰的這些像素它們有一些關系。比如我們看圖像時我會發(fā)現(xiàn)如果一個像素是紅的,那周圍的像素也更可能是紅的,那么通過這種關系你就可以去讓這些像素他們重新去找朋友,然后就可以把相似的像素自組織成一些關系。

然后這個時候再加上大語言模型里 Transformer 這樣的結構,就可以重新的對這種圖像做出一個表示,而且這個表示的性能還不錯。這個就是一個完全從自然的啟發(fā)去重新審視我們現(xiàn)在的工程上的一些做法、然后提出一些不同方法的例子。

《硅谷101》:感覺研究AI大模型和人腦神經科學還是有很多相似之處的。會有神經科學家從他們的角度來跟你們產生跨領域的研究合作嗎?

陳羽北:其實有很多的神經科學家、統(tǒng)計學家以及數(shù)學家他們想要理解自然信號中的一些結構,同時也會關注大腦中的神經元它們是如何運作的,然后把這兩者結合在一起,嘗試去提出一些極簡的對于信號的一些表示。

舉一個例子,在大腦里面你會發(fā)現(xiàn)有一個現(xiàn)象,就是神經元雖然很多,但同一時間在工作的這些神經元其實是非常的稀疏。比如有100 萬個神經元,可能就只有幾千個在工作。

根據這個,早年神經科學領域就提出來一個稀疏編碼的方法,也就是在這種高位信號中,能不能找出一些稀疏的低維表示?從這樣的思路出發(fā)所構建出來算法,就和你在大腦里面觀測到的這些神經元表示非常相近,所以這個是早期計算神經科學無監(jiān)督的一個成功。

到今天來講的話,我們整個的這一塊研究領域有個名字叫做自然統(tǒng)計信號的研究(Natural Signal Statistics),它的目標就是揭示信號背后的一些基本結構,但和大模型相比,和白盒模型這類神經科學結合的研究它的發(fā)展其實相對來講慢一些的。我其實覺得一方面可能是因為問題復雜,但另一方面也是因為投入這個方向的人比較少。

02 黑盒模型的“彎道超車”

《硅谷101》:簡單來說就是現(xiàn)在研究白盒模型的人太少了。但是在大模型出現(xiàn)以前,傳統(tǒng)的機器學習是不是也屬于白盒模型研究的范疇?

陳羽北:我覺得這個說法可以認為是對的,以前的這些機器學習的模型相對簡單,相對來講都可以理解。

《硅谷101》:那為什么現(xiàn)在整個的黑盒模型的研究進展對白盒模型實現(xiàn)了彎道超車,速度可以快這么多?

陳羽北:這個問題問出來我們就先會是緊張一下,然后再回答。

《硅谷101》:為什么要緊張?陳羽北:因為這個問題很尖銳,其實是在問是不是白盒模型、或者說可理解的這條路徑我們就應該放棄了。從我們這個時代開始,是不是在AI領域我們已經不再研究科學了,以后全都變成一個經驗性學科?但我覺得還不是。

回到你剛才的這個問題,這個過程中到底發(fā)生了什么?首先一點就是黑盒模型的包袱少。你既要這個方法可以工作又要這個方法可以解釋的話要求就太多,那黑盒模型就放棄了一條讓他先可以工作。

第二是相對來講被大家所忽視的原因,就是數(shù)據的逆勢增長,或者說是規(guī)模擴大。

Richard Sutton之前寫了一篇博客里面曾提到,在過去的 20 年里面有一個一直沒有被打破的東西,就是當我們有更多的數(shù)據、更多的計算,應該找到比較能夠真正擴張的算法去把所有的數(shù)據的這種規(guī)律找進來。我認為這個是黑盒模型里,或者說是我們現(xiàn)在的經驗性的進展里很重要的一條。

就是說當我們有更大的數(shù)據、更好的數(shù)據,更多的計算、更大的模型,然后就能學得更多。但是我們回到這個問題的話,就是白盒模型里大家有一個追求,是說模型本身要具有簡潔性。

《硅谷101》:為什么白盒模型要簡潔?是不是可以理解成如果它過于復雜,它就很難被設計?陳羽北:是的。其實做理論只有簡潔的東西才可以被理解,肯定是要做一次一次的簡化。但是們在追求模型的簡潔性的時候,也可能會做了一次又一次的過度簡化,而一旦出現(xiàn)這種過度簡化,模型就無法完全刻畫數(shù)據的形態(tài)。那么數(shù)據更多的時候,模型就走不下去了,它的能力會被限制住。

所以我認為這也是以前大家在研究白盒模型、研究簡單模型時面臨的一個困難。我們不僅僅要帶著模型需要工作、同時還需要它可解釋的包袱,同時我還需要它簡潔,當你把所有的這些東西帶上,就會發(fā)現(xiàn)這個包袱太重。當你做過度簡化的時候也就引入了錯誤,錯誤會積累,再后來就走不動了?!豆韫?01》:但現(xiàn)在隨著黑盒模型的快速發(fā)展,我們又開始嘗試去解決它。陳羽北:是的。而且這一次我們在解決它的時候,可能會重新審視這個問題。就是我們不一定需要讓模型完全的簡化到那個程度,它還是能夠表示這個世界比較復雜的一面。

但是同時我們還是希望他是比較可以理解的,所以如果有一天我們可以做到白盒模型的話,那么在此之前我認為每一次的嘗試都是一次過度的簡化,但是我們希望每次簡化都能往前走。我們甚至不需要完全做出一個白盒模型,也許可以做出一個白盒的、但是沒有大模型那么強的模型,但它又相對來講非常簡潔。

它對于我們理解學習背后的本質是有幫助的,同時這種理解可能反過來又讓我們對大模型的訓練提高效率。關于效率問題我之前跟 Yann 也討論過幾次,就是說如果這背后的理論得到發(fā)展,我們就可能讓工程實踐效率以數(shù)量級的方式上升?!豆韫?01》:Yann的觀點是更希望發(fā)展白盒模型還是黑盒模型?陳羽北:Yann是一個以工程方面著稱的科學家,所以他的很多嘗試還是要讓這個東西先工作起來。但Yann也是支持白盒模型研究的,在我跟他討論的過程中,他會覺得這條路值得探索,但是一個過于有野心的目標,是否能實現(xiàn)他也不知道,但總要有人做?!豆韫?01》:感覺黑盒模型是一個工程問題,白盒模型則必須用科學解釋它。雖然從商業(yè)化角度,它的投入產出比不是那么高,但如果最終能做出來這個東西,那么對 AI 的安全性和未來商業(yè)化的應用還是很有價值的。陳羽北:關于商業(yè)化,其實我認為所有做基礎 AI 研究的人工作的初衷不是以任何的應用為初衷,而是由對智能這個問題比較純粹的好奇心所驅動,緊接著可能會發(fā)現(xiàn)一些規(guī)律反過來可能幫到在工程實踐。研究本身并不是為某一種應用所設計的。

另外,當我們在追求這種白盒模型、這種極致效率的過程中,我們也會追問一個問題,就是我們現(xiàn)在做的這個大語言模型是不是只通過這種規(guī)模化或者 Scaling Law 這一條路走下去就可以了?我認為其實不是的。因為人是做不到接受這么大量數(shù)據的,那如何用少量的數(shù)據還能獲得比較高的泛化能力,這也是我們在研究的一個重要的問題?!豆韫?01》:這應該也是黑盒模型的學者在研究的一個問題。目前白盒模型有哪些學者跟流派在研究這個事情呢?

陳羽北:目前主要就是AI的三股力量。第一股力量就是我們在研究這些工程模型的過程中所產生的一些經驗,然后對它進行可視化,比如最近Anthropic、 OpenAI 他們也參與在做的這些事情。

Anthropic的研究:從神經網絡Claude 3 Sonnet提取可解釋的特征

第二就是計算神經科學嘗試對人腦進行理解,找到一些記憶可能存在的方式。

還有一種流派就是從數(shù)學和統(tǒng)計的角度出發(fā),看信號的基本的結構是什么樣的。當然這三種之間還會產生很多的交叉?!豆韫?01》:你屬于哪一流派?陳羽北:其實這三派我都或多或少都有受到一點影響。之前在伯克利的時候跟我的導師以及馬毅老師他們都屬于偏神經科學和數(shù)學統(tǒng)計的這個流派,然后在Yann 這邊是工程方面訓練多一點。這三種方法我也覺得都可以接受,因為它最終都會讓我們向同一個方向前進?!豆韫?01》:同樣的方向是哪個方向?現(xiàn)在有階段性結果嗎?

陳羽北:最終就是理解這個模型。之前有一些階段性成果,比如說我們能不能做出一些哪怕是兩三層的網絡,每一層我們都可以看他學的是什么東西。最后發(fā)現(xiàn)真的可以做到一個數(shù)字要想表示它,你會把它的筆畫全都學出來,再把相似的筆畫聯(lián)系在一起,接著就可以構建出來下一個層次的表示,這樣的一層一層的,最后找到了數(shù)字?!豆韫?01》:你現(xiàn)在的這些研究會對黑盒模型產生優(yōu)化嗎?

陳羽北:一是當你對它的理解加深了以后,可能就能優(yōu)化黑盒模型,讓它的效率變高。第二是能把不同的黑盒模型統(tǒng)一起來,這樣就減少了很多不必要的浪費。同時還有一個涉及到我這個實驗室的另外一項支柱性的工作,就是要研究不僅僅是感知還有控制。

當你給了這些大語言模型它能夠和世界交互的這個能力的時候,能不能讓它在控制系統(tǒng)里邊你能否獲得同樣的泛化能力。什么意思呢?就是說在感知系統(tǒng)里邊你會發(fā)現(xiàn),我學了蘋果,學了梨,然后來一個桃子,由于我之前學了一個相似的蘋果和梨的概念,所以可以很快就學會桃子這個概念。

那么在控制的領域,能不能達到相似的性能呢?比如一個機器人它學會了向前走和原地跳躍,那能不能很快把它變成一個向前一邊跳一邊走的機器人。

《硅谷101》:如果讓你給一個結論的話,你覺得用白盒模型的研究解開大模型運作這個秘密,它目前的進度條到哪里了?陳羽北:實際上我們都不知道這個進度條有多長,我感覺距離這個目標其實很遠。它不一定是一個線性的發(fā)展,可能是比較像量子的這種跳躍。當一個新的認知出來以后,你可能會馬上往前走一大步。

如果你想做一個白盒的ChatGPT,我認為這個還挺遠的,但我們有可能能夠做出一個還不錯的、完全可理解的模型,復現(xiàn)當時像比如 AlexNet 這樣的能力。這種模型它可以就做 Imagenet 的識別,我們可以理解它里邊的每一步它是怎么做的,它是如何一步一步地變成了一個貓和狗,然后這個貓和狗它的這個結構是怎么產生的。

ImageNet 使用的 WordNet 的示例

《硅谷101》:ImageNet 的識別算是白盒還是黑盒?

陳羽北:我們還沒有完全發(fā)現(xiàn)它的工作原理。從 Matthew Zeiler 和 Rob Fergus以及很多研究者做的一些早期的可視化中有一定理解,但是沒有人能夠創(chuàng)造出來這樣的一個模型,每一步我們都可理解且還能工作得不錯。《硅谷101》:所以可能白盒模型的目標就是分階段的。比如第一步先解釋這個 ImageNet 是怎么工作的,這個謎底揭開以后我們可以再來解釋一些小模型是怎么工作的,就像用GPT 4去解釋GPT 2是怎么工作的,然后再慢慢解釋大模型是怎么工作的。陳羽北:是的。這個過程我覺得還是有相當長的時間,而且也需要更多的人來投入到這個方向上。因為目前大部分的工作都集中在工程領域。如果我們放到學校來做的話,那你其實是需要有一些原創(chuàng)性的想法,而不是說你去scale,我也去scale,那大家都是scale,到最后其實就沒有區(qū)分度,就看誰的機器最好和誰的數(shù)據最多了。

03 我所了解的Yann LeCun

《硅谷101》:接下來我想跟你討論一下你博士后的導師Yann LeCun。我先再補充介紹一下Yann LeCun,他的中文名字叫做楊立昆,是一名法國計算機科學家,在機器學習、計算機視覺、移動機器人和計算神經科學等領域都有很多貢獻,被譽為“卷積神經網絡之父”。

LeCun 現(xiàn)任Meta首席AI科學家,并擔任紐約大學教授。他在1980年代率先提出了卷積神經網絡(CNN),這項技術成為現(xiàn)代計算機視覺的基礎。LeCun與Geoffrey Hinton和Yoshua Bengio共同獲得2018年圖靈獎,表彰他們在深度學習方面的開創(chuàng)性工作。

可不可以給我們不懂技術的朋友稍微解釋一下 Yann 主要的科學研究成果,以及他為什么這么知名?

陳羽北:Yann從 80 年代就開始研究神經網絡 AI 領域,經歷了很多次的高峰和低谷和不同學派的衰落,但他始終堅持深度學習網絡,是一個走過黑暗的人。

比如2000 年的時候發(fā)深度學習相關的文章非常困難,困難到什么程度呢?如果你的文章里面存在 Neural 神經或者Network這個詞,你被拒稿的概率就很大了,如果有 Neural Network 的話基本就一定會被拒稿。

所以當時對于他們來講這是一個至暗時刻,經費也受影響。但是他們能在這種黑暗當中堅持不放棄,最后走出這個黑暗,到今天神經深度網絡改變了世界,我覺得這個其實也是他們得圖靈獎,對他們當年作為前期的先鋒的一種記憶吧。

《硅谷101》:你讀博士后的時候為什么會選他的組?陳羽北:這是一個比較有意思的奇遇。我當時其實挺迷茫的,甚至沒有想過那個學期去畢業(yè)。因為我的決心是說要在博士期間做出一個白盒的模型,而且要和 AlexNet 的性能可比,但還差一點沒有做好。

我覺得如果要繼續(xù)我的研究,博士后去找誰呢?當時我正在開會,然后在會場上就碰到了Yann。我其實不是特別投機的一個人,我想大家肯定都想找Yann去做博后,所以碰到他的時候其實主要想的是聊一下他對我工作的一些看法,以及聊一聊對于AI未來研究方向的上的一些觀點。

結果當時在會上聊的就非常好,我的研究方向以及我想的一些問題,他曾經也都想過,只不過是從神經網絡的這個角度。所以當時他就問我在招博士后你有沒有興趣申請一下,那我當然申請了,所以當時就是這樣的一拍即合。

《硅谷101》:他是一個什么樣風格的導師?是屬于給學生非常多自由空間探索的,還是來跟大家一起討論幫忙很多的。陳羽北:首先,第二種情況他現(xiàn)在已經不可能了,很多人都需要他的時間,他能夠分給每一個人的時間也相對來講就沒有那么多。

他其實和我的博士的導師相似,在一些大方向上是非常放養(yǎng)的,但我認為他們有另外一點相似就是對于他們所相信的事情他們會有堅持,就是他可能會給你指一個方向和目標。但具體怎么走,是乘船還是乘車,這都沒有關系,他不會去控制這些細節(jié)。

他自己的大方向其實這么多年也沒有變過,一直是自監(jiān)督學習。自監(jiān)督學習其實分兩部分,一個部分是基于感知的自監(jiān)督。另一個更重要的部分是如何用具身的方式來做自監(jiān)督,或者我們現(xiàn)在做世界模型 World Model,這是他相信的一個方向。

這個名字其實還是我安利給他,因為我當時讀了David Ha和Jürgen Schmidhuber寫的那篇名字叫 World Model文章,我覺得這個名字挺酷的。

A system architecture for autonomous intelligence, Mata AI

《硅谷101》:你覺得Yann的研究方向跟 OpenAI、Anthropic 他們的有什么不一樣嗎?陳羽北:如果說真要說什么不一樣的話,我覺得Yann想要的是模型需要具備有幾個特點。第一是要有具身的能力,也就說不是只堆數(shù)據,而是這個模型最終它可以自己去探索這個世界?!豆韫?01》:這有什么不一樣呢?似乎大家都希望最終達到這樣的一個結果。陳羽北:執(zhí)行方式有所不同。比如 OpenAI 我認為它是 Scaling Law,也就是更多、更好的數(shù)據,然后更多的計算和更大的模型。但Yann還是比較科學化的,他想的是如果我們想真正通向比較類人的這種智能的話,那到底需要什么?他會覺得只是堆數(shù)據是不夠的?!豆韫?01》:所以Yann其實是相當于黑盒白盒一起研究。

陳羽北:我覺得Yann它實際上沒有那么在意這是否能發(fā)展成一門科學,目前我認為他的觀點主要還停留在經驗性和工程上,希望這個系統(tǒng)可以工作得更好,這其實也是他一直非常擅長的東西。

《硅谷101》:當 OpenAI 證明了Scaling Law可以達到很好的效果的時候,你覺得Yann他在科研方法和思維上有所轉變嗎?還是他仍然非常堅持原路線?

陳羽北:實際上他并不反對 Scaling Law,我覺得大家在這件事情上并沒有沖突。真正的可能分歧主要在于 OpenAI 很多的工作其實還是以產品為導向,在工程上執(zhí)行到極致,但Yann其實是以更科學的形式在研究。

他想這些問題的時候其實不太涉及到產品,而只是想一個事情,就是究竟怎么能實現(xiàn)智能。因為他在這個領域已經太久了,在八幾年的時候就開始在這個領域在深耕了,所以他可能看這些問題的時候,還是會堅持自己的理想。

《硅谷101》:讓智能自主學習這是Yann研究的第一個特點,其他還有一些什么特點?

陳羽北:還有就是Yann一直相信的一個東西叫做JEPA,Joint Embedding Predictive Architecture。就是說模型當然要有自主學習的能力,但是比這是更重要的一點是當模型在學習數(shù)據的時候也能學習到一些比較高層次的規(guī)律。

實際上目前有兩派,一派希望能夠通過學習對數(shù)據進行完全重建,可以認為是一個壓縮的思路,但是Yann不希望完全地回到這個圖像當中,因為重建這個圖像帶有了太多的細節(jié),而這些細節(jié)并不是對系統(tǒng)做判斷時最重要的一些信息。

《硅谷101》:這點他跟你在伯克利的馬毅導師觀點是不一樣的嗎?

陳羽北:其實他們在這個觀點上并沒有本質的沖突,只不過是表述的方式有所不同。馬老師覺得這個世界的規(guī)律是簡潔的,Yann認為這些細節(jié)其實對做下游的任務或者是一些判斷是不利的,所以要把那些高層次的規(guī)律找到。

其實這二者是一樣的,因為高層次的規(guī)律一般就是簡潔的。馬老師經常說所有的東西都是壓縮,如果你拿Yann的觀點來看的話,會發(fā)現(xiàn)壓縮確實沒錯,但數(shù)據的層次結構其實是不同的。

因為現(xiàn)實世界是復雜的,在現(xiàn)實世界中如果你深入到這些細節(jié)里邊會有發(fā)現(xiàn)有大量的東西其實是低層次的一些結構。數(shù)據中有結構,任何存在結構的東西都是從噪聲偏離的一個反應,就是說完全沒有結構的東西就是噪聲,任何離開噪聲你就是有結構了。

我們要學習這些結構,但結構有不同的層次。但當你上升層次,在更大的一個尺度的時候,就會發(fā)現(xiàn)結構其實已經不重要了,在那個層次來看的話,這些東西就已經變成像噪聲一樣的東西了。

所以Yann的觀點就是說,要壓縮沒錯,但我們需要有這樣一個層次化的學習,學習信號中所有的結構、學出越來越高的結構。但是最高級的結構它往往對于壓縮的整個占比不大,在優(yōu)化的過程中就可能會丟失,因為大量的東西都是在低層次的、像噪聲一樣的信息量是最大的,越往上走就越難發(fā)現(xiàn)這樣的結構。

為什么呢?因為在你的優(yōu)化的 loss function 就是你的目標函數(shù)里邊,你找到這個規(guī)律和找不到這個規(guī)律可能對你的 loss 影響不大。我覺得主要就是這兩點,一個是世界模型,另外一個是對于這種層次化的表示。

《硅谷101》:你覺得他們身上有哪些特質是特別打動你的?

陳羽北:特別打動我的可能就是他們做事情的那種專注和純粹吧。

有一次我跟Yann吃午飯,他說你們在年輕時候想要的所有的東西我都有了,但是我已經沒有太多時間了,所以他只能用自己剩下的時間做自己真正相信的事情。

當你跟這樣的一些科學家工作的時候,你可能會被他們身上的這種氣質所影響,以至于你即便你還沒有達到他們現(xiàn)在所在的這個地位,以及他們所擁有的這些東西之前,也能以他們的視角來看待這個世界一點。

所以你在做選擇或做事情的時候,可能會超出現(xiàn)在所在的這個位置,可能會想,如果有一天我也像他一樣全都擁有了,我會做什么。

《硅谷101》:他有改變你的哪些決定嗎?

陳羽北 :有,它會讓我做很多的選擇的時候會想到這個事情。我記得我讀博士的第一天,我的導師跟我講了兩件事情。

一件是說他不需要我發(fā)很多的文章,但希望能發(fā)出來的這種文章可以穿越時間,就是在 20 年以后看到這篇文章依然不舊。這其實很難,因為很多的工作它帶有鮮明的時代感,但是真正一些深邃的思想它可能穿越了上百年依然不老,這是一個很高的目標,可能當你快要退休的時候可能才能夠被驗證。但是它提出了一個靈魂的拷問,就是你能否堅持去做一些能夠與時間共存的工作。

第二是他希望一個學者應該具有自己的一種態(tài)度,如果你覺得一件事情是a可以做, b 可以做, 你也可以做,你就不要做。就是說當你做這件事情的時候,你會發(fā)現(xiàn)并不是這個工作需要你,而是你需要這個工作,這就是一種投機的心態(tài)。這其實是我在他們身上看到的這種相似的氣質,就是希望不要隨大流,能有自己的態(tài)度和尋找到自己的一些 voice。

所以當我在選研究的方向的時候,也會自己時不時的判斷一下我現(xiàn)在做的這個工作到底是一個投機的,還是一個真正的中有砥柱的工作。

我覺得他們,尤其是Yann比較偉大的一點,就是你可以穿越了這種幾乎是絕望的時光然后迎來曙光。沒有經歷過低谷的人沉淀的可能是不夠的,當你經過至暗時刻,用你的眼光和堅持穿越短期的這個時間,然后證明它是對的,我覺得這個是挺有意思的一種氣質。

《硅谷101》:Yann有哪些在科學上的看法是你不同意的嗎?

陳羽北 :他有的時候會鐵口直斷。比如最近他就說如果你作為一個研究者的話,那就不應該研究大語言模型。這句話它有很多種理解,從字面上意思的理解的話很多人就會不同意,包括我。我可能會覺得,大語言模型里面有一些結構是值得被理解和研究的。

當然Yann可能真正想說的可能是我剛才提到的,不要做a可以做、b也可以做的這種投機性的工作,希望研究者有自己的一點堅持和找到比較原創(chuàng)性的貢獻。如果是這樣的說的話,我其實覺得我會更同意一些。但他作為大V有時候這個話講出來會嚇你一跳,然后引起很多話題討論。是讓我覺得很有意思的一個地方。

《硅谷101》:你也在 Meta 工作過,你覺得 Yann 對 Meta 最大的貢獻在哪里?

陳羽北:首先應該是幫助籌建了Meta AI。當時他籌建 Meta AI 的時候,首先是 Mark 找到他,另外因為他早年是貝爾實驗室的,他很向往當年的貝爾實驗室的那個狀態(tài),所以他也有一個理想想在 Meta 復制這樣一個實驗室。他秉承了這樣的一個理念,在Meta AI也招募和培養(yǎng)了一批非常不錯的人,給這個領域做了很大的貢獻,推動了整個領域的發(fā)展。

《硅谷101》:我覺得開源應該也算是他的很重要的一個貢獻,比如說 Meta llama 之所以走了開源的路線,跟整個 Yarn 的思想應該也是非常一致的。

陳羽北:是的,對,開源確實是Yann所堅持。但我也不知道將來 Meta 是不是會一直開源下去,因為畢竟 Meta 也會面臨競爭,但是我覺得這是Yann的一個理念,最終能執(zhí)行到多好,能走多遠,其實也要看整個環(huán)境的發(fā)展。

《硅谷101》:你覺得現(xiàn)在整個大模型的研究必須是由科學家驅動嗎?還是它會慢慢變成一個工程驅動的事情?

陳羽北:我就覺得它已經變成一個工程驅動了,早期是科學家驅動。這一兩年里面,我覺得主要的這個進展都來自于工程的執(zhí)行,數(shù)據的質量是不是變高了?數(shù)據是不是變多了?它的 distribution 是不是變豐富了?計算是不是能夠并行?都是由工程領域非常重要的細節(jié)導致的。從 0 到1 的發(fā)展它需要科學的突破性,但從 1 到100,就需要工程的嚴格性和執(zhí)行能力,在不同階段需要不同角色的人一起來推動。

《硅谷101》:大家現(xiàn)在都在期待 GPT 5,你覺得如果 GPT 5 出來了,它更多是一個科學問題,還是一個工程問題?

陳羽北:我覺得工程上面可走的路是很遠的,甚至我們可以認為 Scaling Law 它還有相當長的路可走,完全沒有到盡頭,包括數(shù)據的質量以及算力的擴展。但同時我認為即使我們現(xiàn)在找到的最魯棒的一條路就是Scaling Law,但這肯定是不夠的。

那我們還需什么呢?我覺得需要的就是類人的這樣的一些高效率,那如何實現(xiàn)這樣的一個效率?有可能是數(shù)據觸發(fā)的,但也可能是還有其他的一些東西,所以我覺得如果我們說要通向 AGI 的過程中,應該還會有這種完全從 0 到 1 的一些比較大的轉變。

《硅谷101》:就是既要有科學上的進展,在工程上我們也還有很大的空間可以去提高。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

聊聊大模型如何思考與深度學習科學家Yann LeCun

大模型的可解釋性。

文 | 硅谷101 泓君

隨著近兩年來生成式AI技術的進步與普及,使用大模型來生成內容也已逐漸成為普通人生活的一部分。這個過程看起來似乎很輕松:當我們輸入一個指令,大模型就直接能為我們輸出答案。然而在這背后,模型內部的工作原理和模型決策過程卻并沒有人知道,這即是廣為人知的“機器學習黑盒”。

因為黑盒模型所存在的不可解釋性,AI的安全問題也一直備受質疑。于是科學家們開始試圖去打開大模型的黑盒子,業(yè)內稱之為“白盒研究”。一方面,白盒模型的研究能幫助人們理解黑盒模型,從而對大模型進行優(yōu)化和效率的提升。另一方面,白盒研究的目標是要把AI這一工程性學科推向科學。

此次,我們邀請到了加州大學戴維斯分校電子與計算機工程系助理教授陳羽北,他的研究內容就與“白盒模型”有關。此外,他也是圖靈獎獲得者、Meta首席科學家Yann LeCun的博士后。本期節(jié)目中,他和我們聊了聊白盒模型的最新研究進展,同時也向我們分享了他所熟悉的這位經歷過AI行業(yè)起起伏伏、卻依然純粹專注的科學家Yann LeCun。

以下是部分訪談精選

01 人腦與大模型

《硅谷101》:可以先簡單介紹一下你正在做的“白盒模型”研究嗎?在你的研究過程中有沒有發(fā)現(xiàn)如何能去解釋 GPT 的輸入輸出問題?

陳羽北:這個方向其實一個比較大的目標就是深度學習從一門純經驗性學科向一個科學學科來推動,或者說把工程變成科學,因為目前工程發(fā)展得比較快但科學相對緩慢。以前有一個模型叫做詞的嵌入(embedding),它可以學到語言的一些表征。

大家當時其實就有一個疑問,我們做任務的性能變好了,可是究竟是什么導致這個性能變好了?所以我們當時做過一個非常早期的工作,就是嘗試打開詞匯的這些表示。當你把它打開的時候,就會發(fā)現(xiàn)一些很有意思的現(xiàn)象。

比如說蘋果這個詞,你可以找到里面的一些元意思,比如其中的一個意思可能就是代表水果,另外一個意思代表甜點,再往下挖會找到有技術和產品的意思,當然指的是蘋果公司的產品。所以你就會發(fā)現(xiàn)順著一個詞你能找到這些元意思,接著你就可以把這樣的方法延伸到大語言模型里。

也就是說,當我們學完一個大語言模型以后,可以在模型里面去尋找它里面所帶有的一些元意思,然后嘗試去打開。你會發(fā)現(xiàn)一個大語言模型,它其實有很多層。

在初級層里,它會出現(xiàn)一個現(xiàn)象叫“詞語的消歧”。比如像在英文里面有個詞叫做“l(fā)eft”,這個詞它既有向左轉的意思,也有離開的過去式的意思,那么它具體的意思則要取決于語境前后的上下文,所以大語言模型在初期的幾層里就完成了詞語的消歧。

而在中期你會發(fā)現(xiàn)又有一些新的意思產生。當時我們覺得一個很好玩的事叫做“單位轉換”,一旦要將公里變成英里、溫度從華氏度變成攝氏度的時候就會被激活,這個意思就會被打開,你可以順著這個路找到很多相似級別的這種元意思。

你再往上走的時候甚至會發(fā)現(xiàn)這些元意思中存在一種規(guī)律,這種規(guī)律就是當上下文里出現(xiàn)了一個重復的意思時它就會被激活,你就可以用這樣的方式去打開大語言模型以及小語言模型。當然這些思路也并不完全是新的,它在視覺模型里其實已經有一段歷史了,比如說從Matthew Zeiler開始就有一些類似探索。

《硅谷101》:順著這個思路,是不是如果我們知道了它部分是怎么運作的,就可以從工程上對它有很多優(yōu)化?

陳羽北:是的,這個是一個非常好的問題。我覺得做任何理論一個比較高的要求就是可以指導實踐,所以在我們當時做語言模型還有詞匯表征的時候,當時也有的一個目標,就是當我們理解以后,能不能反過來優(yōu)化這些模型?其實是可以的。

舉一個例子,如果你在大語言模型里面找到的一個元意思,當它看到某一種元意思的時候就會激活,那這一個神經元就可以被作為一個判別器,你就可以用這個東西來做一些任務。通過對這些元意思的改變,來調節(jié)模型的偏見。

就是如果我能夠發(fā)現(xiàn)它,那我可以調整它。最近 Anthropic 他們就是做了類似的一個工作,就是找到語言模型里邊可能存在的一些偏見,然后對它進行一些改變來使這個模型變得更加的公平和安全。

《硅谷101》:我看到去年 OpenAI 也有一項研究,就是用 GPT4 去解釋 GPT2,看 GPT2到底是怎么工作的。比如說他們發(fā)現(xiàn)GPT 2的神經元在回答所有跟美國歷史1800年前后的事情時,第5行的第12個神經元會被激活,在回答中文的時候是第12行的第13個神經元被激活。

如果把它回答中文的這個神經元關閉的話,它對中文的理解能力就會大幅的下降。但是越往后的神經元,比如當神經元到了2000排左右的時候那它整個的可信度就已經下降了很多。你有沒有注意到他們的這個研究?

OpenAI的研究:讓GPT4去解釋GPT2的神經元

陳羽北:這篇文章我還沒看過,不過這個方法它非常像是給大腦的神經元做手術。相當于現(xiàn)在如果有一個神經的網絡,這個網絡是指從某種意義上能找到一個局部的存在而不是完全分散的,那么就可以對它進行一些操作。比如把某個神經元切掉了,那你就可以認為它某一塊的能力相對來講就損失掉了。

人其實也是一樣的,比如一個患有癲癇的人在做完手術后可能會出現(xiàn)某些語言的障礙,但并不太影響其他人體功能,這從原理上看起來是相似的。

《硅谷101》:OpenAI、Anthropic他們現(xiàn)在都在研究大模型的可解釋性,你的研究跟他們之間有什么區(qū)別嗎?

陳羽北:白盒模型的研究是否將來能成功其實大家都不知道,我之前也跟我的導師討論過,但大家一致的看法是說這件事值得嘗試。如果我們回到這一塊的話,我們的研究想做的其實是想理解人工智能,并且通過我們的理解重構它,進而從根本上來構建出一些不一樣的東西。那么觀測,也就是可解釋性我覺得只是一種手段。

也就是說,打開這種模型也好,我做這些實驗也好,對模型進行一些調整也好,我認為這都是我們在理解的過程中所嘗試的一些手段,但是白盒模型真正重要的還是要回到這個信號本身。因為不管是人腦也好,機器也好,它們的學習的本質都因為信號。

我們這個世界中存在一些結構,他們也要通過這些結構來進行學習,學的也正是這些結構。那么我們是否可以找到這些結構背后的規(guī)律,以及表示他們的一些數(shù)學工具再把這些東西進行重組進而構建出來一個不一樣的模型?如果這件事可以完成的話,我想就能帶來關于提高我們的系統(tǒng)的魯棒性,或者安全性和可信度的一種期望。

另外,它的效率也會提高。這有點像是蒸汽機先出來之后才出現(xiàn)了熱力學這種理論,從而支撐它從一門完全的工匠學科變成了一門科學。那么同理,今天我們就好像是第一次在數(shù)據上有了蒸汽機,從以前不理解我們的數(shù)據,到現(xiàn)在終于可以開始做出來一些 AI 的算法把數(shù)據中的規(guī)律給抓出來。

《硅谷101》:所以它會更節(jié)能。

陳羽北:要說到節(jié)能,我可以舉幾個有意思的例子。第一個點肯定是節(jié)能,因為大腦它相當于一個20瓦功耗的一個燈泡,那現(xiàn)在的超級計算機它可能要超過百萬瓦。

第二點是,如果我們看自然界各種各樣生物所進行演化,它的演化效率其實是非常高的。比如有一種特殊蜘蛛叫Jumping Spider,它只有幾百萬個神經元,但它可以做出非常復雜的三維的群線去捕捉它的獵物。

而我覺得最有意思的一件事兒是人對于數(shù)據使用的效率。Llama3現(xiàn)在的數(shù)據量大概已經達到了13萬億個Token。但人的一生當中到底能接收多少的數(shù)據呢?假設我們每秒可以獲得30幀圖像,每天的獲取時間是12個小時,做20年,那么我們大概能得到100億個token,文字能獲取的也是差不多一樣,數(shù)據量比大模型小太多了。

那么問題來了,人究竟是如何通過如此少的一個數(shù)據量來獲得如此強的一個泛化能力的呢?這就是人腦在效率層面讓我覺得很神奇的一點。

《硅谷101》:去揭開大模型是怎么運作的和跟揭開人腦是怎么運作的哪個更難?我聽起來都很難。

陳羽北:這兩者各有各的難法,但在方法上是相似的。不管是人腦還是大語言模型,我們都是嘗試去觀測它,看它對什么產生了響應。

這個方法其實從上個世紀80年代獲得諾貝爾生理學獎得主David Hubel和Torsten Weisel關于視覺皮層的研究中就能看到。他們找到了一種Simple Cell,嘗試研究人看到什么東西的時候這些神經元它會產生沖動,分析看不同的東西時候神經元不同的響應狀態(tài),比如什么時候完全不響應,什么時候又很興奮,接著他們就找到了神經元的 Receptive field。

D.H.Hubel和T.N.Wiesel, 1981年諾貝爾生理學或醫(yī)學獎獲得者

而我們今天研究大語言模型其實也是相似的,找不同的輸入,然后理解模型內部的哪些神經元是對哪些輸入感興趣的。不過它們仍然有區(qū)別。

第一個區(qū)別是,不管是通過插電極還是腦機接口等方法對人腦進行觀測,都有很多的限制,但大語言模型有一個天然的好處就是觀測手段不再受限了,如果你有更好的方法,你就可以長期去分析,甚至你還可以通過一些微分的方法對模型進一步分析。

但是它的缺點是,大模型的能力還遠遠不及大腦,尤其是大語言模型,因為它只從語言里面來學習這個世界,所以它的對世界是理解是不完整的,就好像一個人他沒有了其他的感官只有語言。

相比之下,大腦能處理更多維的信號,感官是非常豐富的。有時候我們會想一個問題,就是語言是否是完備的?如果沒有其他感官的支撐的話,語言里邊是不是所有的概念都可以獨立存在,還是一定需要其他感官作為支撐,才有可能實現(xiàn)真正的理解。

舉個例子,“冰箱”這個東西如果不和現(xiàn)實世界的冷熱感受關聯(lián),只是描述它有門等這種統(tǒng)計特征,是不是這種描述就是不完備的。

《硅谷101》:所以其實目前大模型跟大腦相比,它還是欠缺非常多的。但是因為我們可以把它拆開來研究,所以你覺得它還是會比揭開大腦的秘密的這個野心稍微更進一步。

陳羽北:理解大語言模型它的難度在于你觀測的手段多,對它理解也能更多。比如有兩臺機器,一臺機器完全可觀測,一臺機器部分可觀測,那從直覺上來講是完全可觀測的這臺機器就更容易被理解。當然它有一些能力是這臺機器沒有,所以不能取代對人腦的一些理解。

《硅谷101》:我跟聽眾也補充介紹一下,羽北之前是學神經科學的。那你覺得對你的學科背景對現(xiàn)在來做 AI 方向的研究有什么幫助嗎?會不會有一些跨學科的可以相互借鑒的研究方法?

陳羽北:我其實也不是專業(yè)學計算神經科學的。我本科是在清華的電子系,在伯克利是電子工程計算機系,但當時我所在的研究所是一個神經科學的一個研究所,所以我導師是計算神經科學的專家。

關于剛才那個問題,我覺得神經科學的學習對我來講的幫助通常是一種啟發(fā)。因為當你知道自然界的這些系統(tǒng),知道它們可以做到什么的時候,你可能就會有不一樣的想法,會重新看待眼前的問題。

舉個例子,一張圖片它是一個二維輸入信號,它的像素有橫向的、縱向的,然后它形成一個網格。但人眼視網膜并不長這樣。首先它是種擁有不同感知的感受器,這個感受器是以非常密集但又不是非常規(guī)則的方式排布的,它中間非常的細密,向兩邊的時候會變得稀疏。

當你面對這樣一個輸入信號的時候,首先我們習以為常的卷積神經網絡這些東西就都失效了,因為連卷積在這里都沒有定義。所以當看到生物系統(tǒng)里的這個情況,就會重新去想我們所謂的這些卷積到底從何而來。

《硅谷101》:所以你會重新去想方法是不是對的?是不是一定要以這種方式來實現(xiàn)?

陳羽北:是的。就是假設有一天你醒來,所有的神經元都打亂了,那你還能再去理解這個世界嗎?因為你看到的已經不再是一張圖片了,你也不能再用卷積神經網絡來做這件事情了,你需要什么樣的方法?

雖然我們還沒完全解決這個問題,其實目前也已經走了一步。雖然我的所有的神經元都打亂了,就是我們的感受器圖像里邊的這些像素打亂了,可是相鄰的這些像素它們有一些關系。比如我們看圖像時我會發(fā)現(xiàn)如果一個像素是紅的,那周圍的像素也更可能是紅的,那么通過這種關系你就可以去讓這些像素他們重新去找朋友,然后就可以把相似的像素自組織成一些關系。

然后這個時候再加上大語言模型里 Transformer 這樣的結構,就可以重新的對這種圖像做出一個表示,而且這個表示的性能還不錯。這個就是一個完全從自然的啟發(fā)去重新審視我們現(xiàn)在的工程上的一些做法、然后提出一些不同方法的例子。

《硅谷101》:感覺研究AI大模型和人腦神經科學還是有很多相似之處的。會有神經科學家從他們的角度來跟你們產生跨領域的研究合作嗎?

陳羽北:其實有很多的神經科學家、統(tǒng)計學家以及數(shù)學家他們想要理解自然信號中的一些結構,同時也會關注大腦中的神經元它們是如何運作的,然后把這兩者結合在一起,嘗試去提出一些極簡的對于信號的一些表示。

舉一個例子,在大腦里面你會發(fā)現(xiàn)有一個現(xiàn)象,就是神經元雖然很多,但同一時間在工作的這些神經元其實是非常的稀疏。比如有100 萬個神經元,可能就只有幾千個在工作。

根據這個,早年神經科學領域就提出來一個稀疏編碼的方法,也就是在這種高位信號中,能不能找出一些稀疏的低維表示?從這樣的思路出發(fā)所構建出來算法,就和你在大腦里面觀測到的這些神經元表示非常相近,所以這個是早期計算神經科學無監(jiān)督的一個成功。

到今天來講的話,我們整個的這一塊研究領域有個名字叫做自然統(tǒng)計信號的研究(Natural Signal Statistics),它的目標就是揭示信號背后的一些基本結構,但和大模型相比,和白盒模型這類神經科學結合的研究它的發(fā)展其實相對來講慢一些的。我其實覺得一方面可能是因為問題復雜,但另一方面也是因為投入這個方向的人比較少。

02 黑盒模型的“彎道超車”

《硅谷101》:簡單來說就是現(xiàn)在研究白盒模型的人太少了。但是在大模型出現(xiàn)以前,傳統(tǒng)的機器學習是不是也屬于白盒模型研究的范疇?

陳羽北:我覺得這個說法可以認為是對的,以前的這些機器學習的模型相對簡單,相對來講都可以理解。

《硅谷101》:那為什么現(xiàn)在整個的黑盒模型的研究進展對白盒模型實現(xiàn)了彎道超車,速度可以快這么多?

陳羽北:這個問題問出來我們就先會是緊張一下,然后再回答。

《硅谷101》:為什么要緊張?陳羽北:因為這個問題很尖銳,其實是在問是不是白盒模型、或者說可理解的這條路徑我們就應該放棄了。從我們這個時代開始,是不是在AI領域我們已經不再研究科學了,以后全都變成一個經驗性學科?但我覺得還不是。

回到你剛才的這個問題,這個過程中到底發(fā)生了什么?首先一點就是黑盒模型的包袱少。你既要這個方法可以工作又要這個方法可以解釋的話要求就太多,那黑盒模型就放棄了一條讓他先可以工作。

第二是相對來講被大家所忽視的原因,就是數(shù)據的逆勢增長,或者說是規(guī)模擴大。

Richard Sutton之前寫了一篇博客里面曾提到,在過去的 20 年里面有一個一直沒有被打破的東西,就是當我們有更多的數(shù)據、更多的計算,應該找到比較能夠真正擴張的算法去把所有的數(shù)據的這種規(guī)律找進來。我認為這個是黑盒模型里,或者說是我們現(xiàn)在的經驗性的進展里很重要的一條。

就是說當我們有更大的數(shù)據、更好的數(shù)據,更多的計算、更大的模型,然后就能學得更多。但是我們回到這個問題的話,就是白盒模型里大家有一個追求,是說模型本身要具有簡潔性。

《硅谷101》:為什么白盒模型要簡潔?是不是可以理解成如果它過于復雜,它就很難被設計?陳羽北:是的。其實做理論只有簡潔的東西才可以被理解,肯定是要做一次一次的簡化。但是們在追求模型的簡潔性的時候,也可能會做了一次又一次的過度簡化,而一旦出現(xiàn)這種過度簡化,模型就無法完全刻畫數(shù)據的形態(tài)。那么數(shù)據更多的時候,模型就走不下去了,它的能力會被限制住。

所以我認為這也是以前大家在研究白盒模型、研究簡單模型時面臨的一個困難。我們不僅僅要帶著模型需要工作、同時還需要它可解釋的包袱,同時我還需要它簡潔,當你把所有的這些東西帶上,就會發(fā)現(xiàn)這個包袱太重。當你做過度簡化的時候也就引入了錯誤,錯誤會積累,再后來就走不動了?!豆韫?01》:但現(xiàn)在隨著黑盒模型的快速發(fā)展,我們又開始嘗試去解決它。陳羽北:是的。而且這一次我們在解決它的時候,可能會重新審視這個問題。就是我們不一定需要讓模型完全的簡化到那個程度,它還是能夠表示這個世界比較復雜的一面。

但是同時我們還是希望他是比較可以理解的,所以如果有一天我們可以做到白盒模型的話,那么在此之前我認為每一次的嘗試都是一次過度的簡化,但是我們希望每次簡化都能往前走。我們甚至不需要完全做出一個白盒模型,也許可以做出一個白盒的、但是沒有大模型那么強的模型,但它又相對來講非常簡潔。

它對于我們理解學習背后的本質是有幫助的,同時這種理解可能反過來又讓我們對大模型的訓練提高效率。關于效率問題我之前跟 Yann 也討論過幾次,就是說如果這背后的理論得到發(fā)展,我們就可能讓工程實踐效率以數(shù)量級的方式上升?!豆韫?01》:Yann的觀點是更希望發(fā)展白盒模型還是黑盒模型?陳羽北:Yann是一個以工程方面著稱的科學家,所以他的很多嘗試還是要讓這個東西先工作起來。但Yann也是支持白盒模型研究的,在我跟他討論的過程中,他會覺得這條路值得探索,但是一個過于有野心的目標,是否能實現(xiàn)他也不知道,但總要有人做。《硅谷101》:感覺黑盒模型是一個工程問題,白盒模型則必須用科學解釋它。雖然從商業(yè)化角度,它的投入產出比不是那么高,但如果最終能做出來這個東西,那么對 AI 的安全性和未來商業(yè)化的應用還是很有價值的。陳羽北:關于商業(yè)化,其實我認為所有做基礎 AI 研究的人工作的初衷不是以任何的應用為初衷,而是由對智能這個問題比較純粹的好奇心所驅動,緊接著可能會發(fā)現(xiàn)一些規(guī)律反過來可能幫到在工程實踐。研究本身并不是為某一種應用所設計的。

另外,當我們在追求這種白盒模型、這種極致效率的過程中,我們也會追問一個問題,就是我們現(xiàn)在做的這個大語言模型是不是只通過這種規(guī)?;蛘?Scaling Law 這一條路走下去就可以了?我認為其實不是的。因為人是做不到接受這么大量數(shù)據的,那如何用少量的數(shù)據還能獲得比較高的泛化能力,這也是我們在研究的一個重要的問題?!豆韫?01》:這應該也是黑盒模型的學者在研究的一個問題。目前白盒模型有哪些學者跟流派在研究這個事情呢?

陳羽北:目前主要就是AI的三股力量。第一股力量就是我們在研究這些工程模型的過程中所產生的一些經驗,然后對它進行可視化,比如最近Anthropic、 OpenAI 他們也參與在做的這些事情。

Anthropic的研究:從神經網絡Claude 3 Sonnet提取可解釋的特征

第二就是計算神經科學嘗試對人腦進行理解,找到一些記憶可能存在的方式。

還有一種流派就是從數(shù)學和統(tǒng)計的角度出發(fā),看信號的基本的結構是什么樣的。當然這三種之間還會產生很多的交叉?!豆韫?01》:你屬于哪一流派?陳羽北:其實這三派我都或多或少都有受到一點影響。之前在伯克利的時候跟我的導師以及馬毅老師他們都屬于偏神經科學和數(shù)學統(tǒng)計的這個流派,然后在Yann 這邊是工程方面訓練多一點。這三種方法我也覺得都可以接受,因為它最終都會讓我們向同一個方向前進?!豆韫?01》:同樣的方向是哪個方向?現(xiàn)在有階段性結果嗎?

陳羽北:最終就是理解這個模型。之前有一些階段性成果,比如說我們能不能做出一些哪怕是兩三層的網絡,每一層我們都可以看他學的是什么東西。最后發(fā)現(xiàn)真的可以做到一個數(shù)字要想表示它,你會把它的筆畫全都學出來,再把相似的筆畫聯(lián)系在一起,接著就可以構建出來下一個層次的表示,這樣的一層一層的,最后找到了數(shù)字?!豆韫?01》:你現(xiàn)在的這些研究會對黑盒模型產生優(yōu)化嗎?

陳羽北:一是當你對它的理解加深了以后,可能就能優(yōu)化黑盒模型,讓它的效率變高。第二是能把不同的黑盒模型統(tǒng)一起來,這樣就減少了很多不必要的浪費。同時還有一個涉及到我這個實驗室的另外一項支柱性的工作,就是要研究不僅僅是感知還有控制。

當你給了這些大語言模型它能夠和世界交互的這個能力的時候,能不能讓它在控制系統(tǒng)里邊你能否獲得同樣的泛化能力。什么意思呢?就是說在感知系統(tǒng)里邊你會發(fā)現(xiàn),我學了蘋果,學了梨,然后來一個桃子,由于我之前學了一個相似的蘋果和梨的概念,所以可以很快就學會桃子這個概念。

那么在控制的領域,能不能達到相似的性能呢?比如一個機器人它學會了向前走和原地跳躍,那能不能很快把它變成一個向前一邊跳一邊走的機器人。

《硅谷101》:如果讓你給一個結論的話,你覺得用白盒模型的研究解開大模型運作這個秘密,它目前的進度條到哪里了?陳羽北:實際上我們都不知道這個進度條有多長,我感覺距離這個目標其實很遠。它不一定是一個線性的發(fā)展,可能是比較像量子的這種跳躍。當一個新的認知出來以后,你可能會馬上往前走一大步。

如果你想做一個白盒的ChatGPT,我認為這個還挺遠的,但我們有可能能夠做出一個還不錯的、完全可理解的模型,復現(xiàn)當時像比如 AlexNet 這樣的能力。這種模型它可以就做 Imagenet 的識別,我們可以理解它里邊的每一步它是怎么做的,它是如何一步一步地變成了一個貓和狗,然后這個貓和狗它的這個結構是怎么產生的。

ImageNet 使用的 WordNet 的示例

《硅谷101》:ImageNet 的識別算是白盒還是黑盒?

陳羽北:我們還沒有完全發(fā)現(xiàn)它的工作原理。從 Matthew Zeiler 和 Rob Fergus以及很多研究者做的一些早期的可視化中有一定理解,但是沒有人能夠創(chuàng)造出來這樣的一個模型,每一步我們都可理解且還能工作得不錯。《硅谷101》:所以可能白盒模型的目標就是分階段的。比如第一步先解釋這個 ImageNet 是怎么工作的,這個謎底揭開以后我們可以再來解釋一些小模型是怎么工作的,就像用GPT 4去解釋GPT 2是怎么工作的,然后再慢慢解釋大模型是怎么工作的。陳羽北:是的。這個過程我覺得還是有相當長的時間,而且也需要更多的人來投入到這個方向上。因為目前大部分的工作都集中在工程領域。如果我們放到學校來做的話,那你其實是需要有一些原創(chuàng)性的想法,而不是說你去scale,我也去scale,那大家都是scale,到最后其實就沒有區(qū)分度,就看誰的機器最好和誰的數(shù)據最多了。

03 我所了解的Yann LeCun

《硅谷101》:接下來我想跟你討論一下你博士后的導師Yann LeCun。我先再補充介紹一下Yann LeCun,他的中文名字叫做楊立昆,是一名法國計算機科學家,在機器學習、計算機視覺、移動機器人和計算神經科學等領域都有很多貢獻,被譽為“卷積神經網絡之父”。

LeCun 現(xiàn)任Meta首席AI科學家,并擔任紐約大學教授。他在1980年代率先提出了卷積神經網絡(CNN),這項技術成為現(xiàn)代計算機視覺的基礎。LeCun與Geoffrey Hinton和Yoshua Bengio共同獲得2018年圖靈獎,表彰他們在深度學習方面的開創(chuàng)性工作。

可不可以給我們不懂技術的朋友稍微解釋一下 Yann 主要的科學研究成果,以及他為什么這么知名?

陳羽北:Yann從 80 年代就開始研究神經網絡 AI 領域,經歷了很多次的高峰和低谷和不同學派的衰落,但他始終堅持深度學習網絡,是一個走過黑暗的人。

比如2000 年的時候發(fā)深度學習相關的文章非常困難,困難到什么程度呢?如果你的文章里面存在 Neural 神經或者Network這個詞,你被拒稿的概率就很大了,如果有 Neural Network 的話基本就一定會被拒稿。

所以當時對于他們來講這是一個至暗時刻,經費也受影響。但是他們能在這種黑暗當中堅持不放棄,最后走出這個黑暗,到今天神經深度網絡改變了世界,我覺得這個其實也是他們得圖靈獎,對他們當年作為前期的先鋒的一種記憶吧。

《硅谷101》:你讀博士后的時候為什么會選他的組?陳羽北:這是一個比較有意思的奇遇。我當時其實挺迷茫的,甚至沒有想過那個學期去畢業(yè)。因為我的決心是說要在博士期間做出一個白盒的模型,而且要和 AlexNet 的性能可比,但還差一點沒有做好。

我覺得如果要繼續(xù)我的研究,博士后去找誰呢?當時我正在開會,然后在會場上就碰到了Yann。我其實不是特別投機的一個人,我想大家肯定都想找Yann去做博后,所以碰到他的時候其實主要想的是聊一下他對我工作的一些看法,以及聊一聊對于AI未來研究方向的上的一些觀點。

結果當時在會上聊的就非常好,我的研究方向以及我想的一些問題,他曾經也都想過,只不過是從神經網絡的這個角度。所以當時他就問我在招博士后你有沒有興趣申請一下,那我當然申請了,所以當時就是這樣的一拍即合。

《硅谷101》:他是一個什么樣風格的導師?是屬于給學生非常多自由空間探索的,還是來跟大家一起討論幫忙很多的。陳羽北:首先,第二種情況他現(xiàn)在已經不可能了,很多人都需要他的時間,他能夠分給每一個人的時間也相對來講就沒有那么多。

他其實和我的博士的導師相似,在一些大方向上是非常放養(yǎng)的,但我認為他們有另外一點相似就是對于他們所相信的事情他們會有堅持,就是他可能會給你指一個方向和目標。但具體怎么走,是乘船還是乘車,這都沒有關系,他不會去控制這些細節(jié)。

他自己的大方向其實這么多年也沒有變過,一直是自監(jiān)督學習。自監(jiān)督學習其實分兩部分,一個部分是基于感知的自監(jiān)督。另一個更重要的部分是如何用具身的方式來做自監(jiān)督,或者我們現(xiàn)在做世界模型 World Model,這是他相信的一個方向。

這個名字其實還是我安利給他,因為我當時讀了David Ha和Jürgen Schmidhuber寫的那篇名字叫 World Model文章,我覺得這個名字挺酷的。

A system architecture for autonomous intelligence, Mata AI

《硅谷101》:你覺得Yann的研究方向跟 OpenAI、Anthropic 他們的有什么不一樣嗎?陳羽北:如果說真要說什么不一樣的話,我覺得Yann想要的是模型需要具備有幾個特點。第一是要有具身的能力,也就說不是只堆數(shù)據,而是這個模型最終它可以自己去探索這個世界。《硅谷101》:這有什么不一樣呢?似乎大家都希望最終達到這樣的一個結果。陳羽北:執(zhí)行方式有所不同。比如 OpenAI 我認為它是 Scaling Law,也就是更多、更好的數(shù)據,然后更多的計算和更大的模型。但Yann還是比較科學化的,他想的是如果我們想真正通向比較類人的這種智能的話,那到底需要什么?他會覺得只是堆數(shù)據是不夠的。《硅谷101》:所以Yann其實是相當于黑盒白盒一起研究。

陳羽北:我覺得Yann它實際上沒有那么在意這是否能發(fā)展成一門科學,目前我認為他的觀點主要還停留在經驗性和工程上,希望這個系統(tǒng)可以工作得更好,這其實也是他一直非常擅長的東西。

《硅谷101》:當 OpenAI 證明了Scaling Law可以達到很好的效果的時候,你覺得Yann他在科研方法和思維上有所轉變嗎?還是他仍然非常堅持原路線?

陳羽北:實際上他并不反對 Scaling Law,我覺得大家在這件事情上并沒有沖突。真正的可能分歧主要在于 OpenAI 很多的工作其實還是以產品為導向,在工程上執(zhí)行到極致,但Yann其實是以更科學的形式在研究。

他想這些問題的時候其實不太涉及到產品,而只是想一個事情,就是究竟怎么能實現(xiàn)智能。因為他在這個領域已經太久了,在八幾年的時候就開始在這個領域在深耕了,所以他可能看這些問題的時候,還是會堅持自己的理想。

《硅谷101》:讓智能自主學習這是Yann研究的第一個特點,其他還有一些什么特點?

陳羽北:還有就是Yann一直相信的一個東西叫做JEPA,Joint Embedding Predictive Architecture。就是說模型當然要有自主學習的能力,但是比這是更重要的一點是當模型在學習數(shù)據的時候也能學習到一些比較高層次的規(guī)律。

實際上目前有兩派,一派希望能夠通過學習對數(shù)據進行完全重建,可以認為是一個壓縮的思路,但是Yann不希望完全地回到這個圖像當中,因為重建這個圖像帶有了太多的細節(jié),而這些細節(jié)并不是對系統(tǒng)做判斷時最重要的一些信息。

《硅谷101》:這點他跟你在伯克利的馬毅導師觀點是不一樣的嗎?

陳羽北:其實他們在這個觀點上并沒有本質的沖突,只不過是表述的方式有所不同。馬老師覺得這個世界的規(guī)律是簡潔的,Yann認為這些細節(jié)其實對做下游的任務或者是一些判斷是不利的,所以要把那些高層次的規(guī)律找到。

其實這二者是一樣的,因為高層次的規(guī)律一般就是簡潔的。馬老師經常說所有的東西都是壓縮,如果你拿Yann的觀點來看的話,會發(fā)現(xiàn)壓縮確實沒錯,但數(shù)據的層次結構其實是不同的。

因為現(xiàn)實世界是復雜的,在現(xiàn)實世界中如果你深入到這些細節(jié)里邊會有發(fā)現(xiàn)有大量的東西其實是低層次的一些結構。數(shù)據中有結構,任何存在結構的東西都是從噪聲偏離的一個反應,就是說完全沒有結構的東西就是噪聲,任何離開噪聲你就是有結構了。

我們要學習這些結構,但結構有不同的層次。但當你上升層次,在更大的一個尺度的時候,就會發(fā)現(xiàn)結構其實已經不重要了,在那個層次來看的話,這些東西就已經變成像噪聲一樣的東西了。

所以Yann的觀點就是說,要壓縮沒錯,但我們需要有這樣一個層次化的學習,學習信號中所有的結構、學出越來越高的結構。但是最高級的結構它往往對于壓縮的整個占比不大,在優(yōu)化的過程中就可能會丟失,因為大量的東西都是在低層次的、像噪聲一樣的信息量是最大的,越往上走就越難發(fā)現(xiàn)這樣的結構。

為什么呢?因為在你的優(yōu)化的 loss function 就是你的目標函數(shù)里邊,你找到這個規(guī)律和找不到這個規(guī)律可能對你的 loss 影響不大。我覺得主要就是這兩點,一個是世界模型,另外一個是對于這種層次化的表示。

《硅谷101》:你覺得他們身上有哪些特質是特別打動你的?

陳羽北:特別打動我的可能就是他們做事情的那種專注和純粹吧。

有一次我跟Yann吃午飯,他說你們在年輕時候想要的所有的東西我都有了,但是我已經沒有太多時間了,所以他只能用自己剩下的時間做自己真正相信的事情。

當你跟這樣的一些科學家工作的時候,你可能會被他們身上的這種氣質所影響,以至于你即便你還沒有達到他們現(xiàn)在所在的這個地位,以及他們所擁有的這些東西之前,也能以他們的視角來看待這個世界一點。

所以你在做選擇或做事情的時候,可能會超出現(xiàn)在所在的這個位置,可能會想,如果有一天我也像他一樣全都擁有了,我會做什么。

《硅谷101》:他有改變你的哪些決定嗎?

陳羽北 :有,它會讓我做很多的選擇的時候會想到這個事情。我記得我讀博士的第一天,我的導師跟我講了兩件事情。

一件是說他不需要我發(fā)很多的文章,但希望能發(fā)出來的這種文章可以穿越時間,就是在 20 年以后看到這篇文章依然不舊。這其實很難,因為很多的工作它帶有鮮明的時代感,但是真正一些深邃的思想它可能穿越了上百年依然不老,這是一個很高的目標,可能當你快要退休的時候可能才能夠被驗證。但是它提出了一個靈魂的拷問,就是你能否堅持去做一些能夠與時間共存的工作。

第二是他希望一個學者應該具有自己的一種態(tài)度,如果你覺得一件事情是a可以做, b 可以做, 你也可以做,你就不要做。就是說當你做這件事情的時候,你會發(fā)現(xiàn)并不是這個工作需要你,而是你需要這個工作,這就是一種投機的心態(tài)。這其實是我在他們身上看到的這種相似的氣質,就是希望不要隨大流,能有自己的態(tài)度和尋找到自己的一些 voice。

所以當我在選研究的方向的時候,也會自己時不時的判斷一下我現(xiàn)在做的這個工作到底是一個投機的,還是一個真正的中有砥柱的工作。

我覺得他們,尤其是Yann比較偉大的一點,就是你可以穿越了這種幾乎是絕望的時光然后迎來曙光。沒有經歷過低谷的人沉淀的可能是不夠的,當你經過至暗時刻,用你的眼光和堅持穿越短期的這個時間,然后證明它是對的,我覺得這個是挺有意思的一種氣質。

《硅谷101》:Yann有哪些在科學上的看法是你不同意的嗎?

陳羽北 :他有的時候會鐵口直斷。比如最近他就說如果你作為一個研究者的話,那就不應該研究大語言模型。這句話它有很多種理解,從字面上意思的理解的話很多人就會不同意,包括我。我可能會覺得,大語言模型里面有一些結構是值得被理解和研究的。

當然Yann可能真正想說的可能是我剛才提到的,不要做a可以做、b也可以做的這種投機性的工作,希望研究者有自己的一點堅持和找到比較原創(chuàng)性的貢獻。如果是這樣的說的話,我其實覺得我會更同意一些。但他作為大V有時候這個話講出來會嚇你一跳,然后引起很多話題討論。是讓我覺得很有意思的一個地方。

《硅谷101》:你也在 Meta 工作過,你覺得 Yann 對 Meta 最大的貢獻在哪里?

陳羽北:首先應該是幫助籌建了Meta AI。當時他籌建 Meta AI 的時候,首先是 Mark 找到他,另外因為他早年是貝爾實驗室的,他很向往當年的貝爾實驗室的那個狀態(tài),所以他也有一個理想想在 Meta 復制這樣一個實驗室。他秉承了這樣的一個理念,在Meta AI也招募和培養(yǎng)了一批非常不錯的人,給這個領域做了很大的貢獻,推動了整個領域的發(fā)展。

《硅谷101》:我覺得開源應該也算是他的很重要的一個貢獻,比如說 Meta llama 之所以走了開源的路線,跟整個 Yarn 的思想應該也是非常一致的。

陳羽北:是的,對,開源確實是Yann所堅持。但我也不知道將來 Meta 是不是會一直開源下去,因為畢竟 Meta 也會面臨競爭,但是我覺得這是Yann的一個理念,最終能執(zhí)行到多好,能走多遠,其實也要看整個環(huán)境的發(fā)展。

《硅谷101》:你覺得現(xiàn)在整個大模型的研究必須是由科學家驅動嗎?還是它會慢慢變成一個工程驅動的事情?

陳羽北:我就覺得它已經變成一個工程驅動了,早期是科學家驅動。這一兩年里面,我覺得主要的這個進展都來自于工程的執(zhí)行,數(shù)據的質量是不是變高了?數(shù)據是不是變多了?它的 distribution 是不是變豐富了?計算是不是能夠并行?都是由工程領域非常重要的細節(jié)導致的。從 0 到1 的發(fā)展它需要科學的突破性,但從 1 到100,就需要工程的嚴格性和執(zhí)行能力,在不同階段需要不同角色的人一起來推動。

《硅谷101》:大家現(xiàn)在都在期待 GPT 5,你覺得如果 GPT 5 出來了,它更多是一個科學問題,還是一個工程問題?

陳羽北:我覺得工程上面可走的路是很遠的,甚至我們可以認為 Scaling Law 它還有相當長的路可走,完全沒有到盡頭,包括數(shù)據的質量以及算力的擴展。但同時我認為即使我們現(xiàn)在找到的最魯棒的一條路就是Scaling Law,但這肯定是不夠的。

那我們還需什么呢?我覺得需要的就是類人的這樣的一些高效率,那如何實現(xiàn)這樣的一個效率?有可能是數(shù)據觸發(fā)的,但也可能是還有其他的一些東西,所以我覺得如果我們說要通向 AGI 的過程中,應該還會有這種完全從 0 到 1 的一些比較大的轉變。

《硅谷101》:就是既要有科學上的進展,在工程上我們也還有很大的空間可以去提高。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。