在 AI 的世界里,大語言模型已經讓人們感到驚艷。李飛飛卻說,真正的突破還在后頭。她認為,AI 如果不能理解三維世界,那它就不算完整。這是她的下一個瘋狂目標。
兩天前,Y Combinator 在其 YouTube 頻道更新了李飛飛在舊金山的 AI 創業學校進行的訪談視頻。在這次的談話內容中,李飛飛回顧了 ImageNet 項目的創建,從物體識別到如今生成模型這一路,深度學習的飛速發展,重點提到了她目前正攻克人工智能最困難的一項前沿領域:空間智能。
李飛飛目前是空間智能公司 World Labs 的創始人兼 CEO,該公司致力于構建大型世界模型,以感知、生成和與 3D世界交互。她在這次的對談交流中也提到了關于 3D 世界建模對通用人工智能(AGI)重要性的原因,以及為什么空間智能可能比語言更難實現等系列問題。
省流速看版:
這是機器學習領域一次范式的轉變
ImageNet 的誕生不僅是李飛飛的個人夢想,更是計算機視覺和深度學習領域的一次范式轉變。她分享自己那時只是對「讓機器看見」充滿執念,這種執著和努力,創造了數據、GPU 和神經網絡結合在一起的重要時刻。而現在,她有了新的執著,打算繼續引領一場新的 AI 革命。
我們要讓空間智能成為 AI 的新戰場
從物體識別到場景理解,AI 逐步開始有能力理解復雜的視覺信息。而新一輪的轉變來到了當前 AGI 的時代,她相信,世界不是純粹生成性的,只有讓 AI 理解三維世界,才能真正邁向 AGI。大語言模型的數據獲取是簡單的,空間智能模型才是她下一需要攻克的難題。
World Labs 的具體細節 我無法透露太多
當被問到 World Labs 暢想的應用場景,以及與當前 LLMs 的架構有何區別時;李飛飛說軟硬件的融合,以及實現元宇宙,都會需要他們的空間智能。而與實現 LLMs 不同,她提到人類對 3D 世界感知不強,難度很大,但相信自己的團隊,有著世界上最聰明的人,和他們一起可以在 2D 世界解決這個問題。
在 AI 領域,永遠不要害怕失敗
訪談最后,李飛飛分享了自己的成長經歷,無論是從一開始移民美國求學,到斯坦福人工智能實驗室主任,谷歌副總裁,以及現在開始創業,她說自己始終是從零開始的心態,埋頭苦干。她也鼓勵年輕人追隨自己的興趣和好奇心,勇敢地面對挑戰,去解決那些不可能的難題。
以下是訪談實錄,編譯略作調整
機器學習領域需要一次范式的轉變
主持人:我非常激動能夠請到李飛飛博士,她在人工智能領域有著非常長的職業生涯。我相信很多人都知道她。你也被譽為「人工智能的教母」,你創立的第一個項目之一就是 2009 年的 Imagenet,距今已經 16 年了。這個項目已經被引用超過 80000 次,它實際上為人工智能奠定了一個重要的基石——數據問題。能談談這個項目是如何誕生的嗎?那時的工作真的是開創性的。
是的,你說得對,實際上我們幾乎是在 18 年前構思了這個項目,時間真的是飛快。那時我還是第一年來到普林斯頓大學當助理教授。那時的人工智能和機器學習的世界和現在完全不同。那時數據非常少,至少在計算機視覺領域,算法根本無法工作。那時沒有產業,公眾也幾乎不知道「人工智能」這個詞。但仍然有一群人從人工智能的奠基人開始,比如 John McCarthy,然后是像 Jeff Hinton 這樣的人。我覺得我們都有一個人工智能的夢想,我們真的非常希望讓機器具備思考和工作能力。而我的個人夢想就是讓機器具備視覺能力,因為視覺是智能的基石,視覺智能不僅僅是感知,更是理解世界并在世界中做事情。
所以我當時非常執著于「讓機器看見」這個問題。在我癡迷地開發機器學習算法的過程中,我們確實嘗試過神經網絡,但并沒有成功。我們轉向了支持向量機等其他方法,但有一個問題一直困擾著我,那就是泛化問題。如果你從事機器學習工作,你必須理解,泛化是機器學習的核心數學基礎和目標。為了讓這些算法能夠泛化,數據是至關重要的,但當時在計算機視覺領域幾乎沒有數據。而我正好是第一代開始接觸數據的研究生,因為我是第一代見證了互聯網、物聯網的出現的研究生。
時間來到大約 2007 年,我和我的學生決定必須做出一個大膽的嘗試。我們賭機器學習領域需要一次范式的轉變,而這個轉變必須由數據驅動的方法引領。但當時并沒有足夠的數據。所以我們想,既然沒有數據,那我們就去互聯網下載數十億張圖片,這是我們能在互聯網上找到的最大數量,然后我們就構建一個全球的視覺分類體系,利用這個體系來訓練和評估機器學習算法。正是因為這個原因,ImageNet 項目應運而生且真正付諸實踐。
數據和開源迎來了深度學習的春天
主持人:確實,直到出現一些有前景的算法,才開始有所突破。直到 2012 年 AlexNet 的問世,這才是通向人工智能的第二個關鍵因素,獲得足夠的計算能力并投入足夠的資源。而算法則揭示了一個關鍵時刻,那就是當你用數據為人工智能播下種子時,社區開始逐漸找出更多的解決方案,這為人工智能的發展提供了動力,對吧?
李飛飛:在 2009 年,我們發布了一篇小論文,僅作為 CVPR Poster。
從 2009 年到 2012 年,直到 AlexNet 的問世,那三年里我們真的相信數據會驅動人工智能,但我們幾乎沒有任何明確的信號表明這個方法有效。
所以我們做了幾件事情,首先,我們決定開源。我們從一開始就認為必須將其開源,供整個研究社區使用,大家一起合作解決這個問題。
其次,我們創建了一個挑戰賽,因為我們希望全世界最聰明的學生和研究人員都來參與這個問題的解決。這就是我們所說的 ImageNet 挑戰賽。每年我們都會發布一個測試數據集,整個平臺的 ImageNet 數據用于訓練,但我們會發布單獨的測試數據集,并邀請大家公開參與。
最初的幾年實際上是在設定基準。當時的性能錯誤率大約在 30% 左右,雖然不是零錯誤,也不是完全隨機,但表現并不出色。但到了第三年,2012 年,我也有在我出版的書里寫過這段經歷。
我仍然記得,那是夏末,我們正在將所有 ImageNet 挑戰賽的結果在我們的服務器上運行。某天深夜,我收到了我研究生發來的消息,告訴我有一個結果非常突出,應該去看看。我們仔細查看后,發現這是一個卷積神經網絡。那時它還不是 AlexNet,而是 Geoffrey Hinton 團隊的一項工作,叫做「SuperVision」。這是一個非常巧妙的詞匯玩弄,結合了「super」和「supervised learning」(監督學習)。我們看了 SuperVision 做的工作,這其實是一個老算法,卷積神經網絡早在 1980 年代就已經發布,只是算法上做了一些調整,但最初看到它時,我們真的很驚訝,居然會有如此巨大的突破。
當然,接下來大家都知道了,我們在當年的 ICCV(國際計算機視覺大會)佛羅倫薩的 ImageNet 挑戰賽工作坊上展示了這個成果,Alex Krizhevsky 和他的團隊也來了,很多人也都來了。如今,大家都把這一刻稱為 ImageNet 挑戰賽的 「AlexNet 時刻」。
我還想補充一點,不僅僅是卷積神經網絡的成功,這也是第一次由 Alex 和他的團隊將兩臺 GPU 結合起來,用于深度學習的計算。這真的是數據、GPU 和神經網絡結合的第一次重要時刻。
我的職業生涯不僅僅是講述場景
主持人:沿著計算機視覺智能發展的趨勢,ImageNet 確實為解決物體識別的問題奠定了基礎。緊接著,人工智能達到了可以解決場景理解的問題。因為你和你的學生們,像是 Andre Karpathy 等人,開始能夠描述場景。能否談談從物體識別到場景理解的轉變?
李飛飛:是的,ImageNet 解決的是當你看到一張圖片時,如何識別出其中的物體,比如「這是只貓,這是張椅子」,這屬于視覺識別中的基本問題。但自從我作為研究生進入人工智能領域時,我就有一個夢想。我覺得這個夢想可能需要一百年才能實現,那就是講述世界的故事。想象一下,當人類睜開眼睛,你剛剛睜開眼睛,看到的不是「人、椅子、桌子」,你實際上看到的是一個會議室,看到屏幕、舞臺、觀眾、攝像機等。你可以描述整個場景,這是一種人類的能力,是視覺智能的基礎,它對我們日常生活至關重要。因此,我一直認為這個問題會占據我一生的時間。當我作為研究生畢業時,我告訴自己,如果我能創造出一個能夠講述場景故事的算法,那我就算成功了。這是我當時對自己職業生涯的設想。
然而,隨著深度學習的崛起,那個時刻真的來臨了。后來,Andre 和 Justin Johnson 加入了我的實驗室,我們開始看到自然語言與視覺的碰撞信號。
Andre 和我提出了一個圖像描述或講故事的問題。簡而言之,到了 2015 年左右,Andre 和我發布了一系列論文,其中包括一些與我們同期發表的論文,它們實際上是讓計算機能夠生成圖像說明的最早工作之一。我幾乎感覺到,我該怎么繼續我的人生了?這本來就是我的一生的夢想啊。那一刻對我們倆來說,真的是無比震撼。
從個人角度來說,我覺得我是世界上最幸運的人,因為我的整個職業生涯從人工智能冬天的結束、人工智能崛起的開始就起步了,我的很多工作和職業生涯都與這一變革息息相關,或者在某種程度上推動了這場變革。所以,我感到非常幸運、感恩,并且以某種方式感到驕傲。
主持人:我認為最瘋狂的事情是,即使你已經實現了描述場景,甚至通過擴散模型生成場景的夢想,你依然在做更大的夢想。因為計算機視覺的整個發展軌跡已經從物體識別到場景理解,再到現在的「世界」概念。而你決定從學術界,從教授職位轉到創業,成為了 World Labs 的創始人兼 CEO 。能談談「世界」究竟是什么嗎?它是不是比場景和物體更具挑戰性?
李飛飛:是的,這確實很瘋狂。當然,大家都知道過去的事情,對于我來說,過去五六年的進展真的是很難總結。我們正處在一個技術進步的文明時刻。作為一名計算機視覺科學家,我們見證了從圖像到圖像描述,再到利用擴散技術生成圖像的令人難以置信的增長。盡管這些進展讓人興奮,但同時,我們也看到另一個極為激動人心的領域,那就是語言領域,尤其是 LLMs(大語言模型)。比如 2022 年 11 月,ChatGPT 的出現,真正開啟了生成模型的大門,基本上可以通過圖靈測試等等。所以,即使像我這樣年紀較大的人,也感到非常激動,開始大膽地思考下一步的目標是什么。
但如果你想一想視覺,思考一下理解三維世界的能力,弄清楚如何在這個三維世界中行動,如何在三維世界中導航、互動、理解、與之交流,這一切的進化歷程卻花費了 5.4 億年。
大約 5.4 億年前,第一個三葉蟲開始在水下發展視覺感知。從那時起,視覺成為了推動演化軍備競賽的關鍵。視覺出現之前,動物的生命形態相對簡單,近 5 億年間幾乎沒有復雜的變化。但在接下來的 5.4 億年中,正是因為擁有了理解世界的能力,演化的軍備競賽開始了,動物的智能也不斷提升。
所以對我來說,解決空間智能的問題,理解三維世界,生成三維世界,推理三維世界,在三維世界中做事情,這對于人工智能來說是一個根本問題。對我而言,AGI 如果沒有空間智能,是不完整的。我想解決這個問題。這涉及到創造「世界模型」,超越平面像素,超越語言,真正捕捉三維結構和空間智能的世界模型。幸運的是,無論我多大年紀,我總是能和最出色的年輕人一起工作。所以,現在我和三位了不起的年輕但世界級的技術專家,Justin Johnson、Ben Mildenhall 和 Christoph Lassner,一起創辦了這家公司。我們將嘗試解決,我認為目前人工智能領域中最難的問題。
獲取空間智能的數據要比語言數據難得多
主持人:確實,這些都是非常出色的人才。Chris 是 Pulsar 的創始人,Pulsar 是一種可微分渲染技術,現在是用于 PyTorch3D 的基于球體的渲染后端。而 Justin Johnson,作為你曾經的學生,他真的有著極強的系統工程思維,曾實現了基于神經網絡的實時風格遷移。然后是 Ben,他是 NeRF(Neural Radiance Fields 神經輻射場)論文的作者。所以這真的是一支超級精英團隊。你需要這樣一支精英團隊,因為我們之前聊到過,視覺實際上比語言更難。也許這么說有點爭議,因為LLMs 本質上是一維的,對吧,但你所談論的是理解大量的 3D 結構。那么,為什么這如此困難?它為什么是比現在的大語言強大呢?
李飛飛:是的,你能理解我們問題的困難。語言本質上是一維的,語法是按順序出現的,這就是為什么序列到序列(sequence-to-sequence)建模如此經典的原因。還有一點,語言是純粹的生成性信號,很多人沒有意識到這一點。自然界中是沒有語言的,你不能觸摸語言,也看不見語言,語言完全是從每個人的腦袋里生成出來的。語言是一個純粹的生成信號。當然,當你把它寫在紙上時,它就在那里,但語言的生成、構建和實用性本質上是非常生成性的,而世界遠比這復雜得多。
首先,現實世界是三維的,如果再加上時間,那就是四維的,但我們暫且只考慮空間?,F實世界本質上是三維的,這本身就是一個更具組合性挑戰的問題。
第二,視覺世界的感知是一個投影過程,無論是你的眼睛、視網膜還是相機,它總是將三維信息壓縮到二維,你必須理解這一點是多么困難。從數學上來說,這是一個不可逆過程,因此人類和動物才會擁有多重感官,才能解決這個問題。
第三,世界并不是純粹的生成性。是的,我們可以生成虛擬的三維世界,但它仍然必須遵循物理規律,而且現實世界也存在于我們之外。你現在實際上是在生成和重建之間流暢地切換。用戶行為、實用性和應用場景完全不同。如果你全程關注生成性,我們可以討論游戲、元宇宙之類的內容;如果你全程關注現實世界,那我們就談論機器人技術等。但這一切都在世界建模和空間智能的連續性中。
當然,當前的巨大難題是,互聯網上有大量的語言數據,而空間智能的數據,雖然它全部存在于我們的大腦中,但不像語言數據那樣容易獲取。所以這些都是為什么這個問題如此困難的原因。但坦率地說,這正是讓我興奮的地方,因為如果這個問題很簡單,那就意味著別人已經解決了。而我的整個職業生涯都在追求那些極其困難、幾乎可以說是癡心妄想的問題。我認為這就是那個癡心妄想的問題。感謝你們對這個問題的支持。
我們的 World Labs 擁有世界上最聰明的人
主持人:是的,甚至從最基本的原理來看,人腦的視覺皮層處理視覺數據的神經元數量遠遠超過處理語言的神經元。這種差異是如何在模型中體現的呢?包括,你們正在研究的這些東西與 LLM 相比,架構上的差異也會非常大,對吧?
李飛飛:這是一個非常好的問題。其實,關于這個問題,目前有兩種不同的思路。
一種是 LLMs 的方式,很多我們在LLMs 中看到的寫作、寫作擴展規律,幾乎可以通過自監督學習來直接推進,直到實現一個「幸福的結局」。你幾乎可以通過蠻力地推進自監督,直到達到目標。
另一種則是構建世界模型,這可能更加細致和有層次,因為世界是有結構的,我們可能需要一些信號來引導它。你可以把它看作是先驗知識,也可以稱之為數據中的監督信號,反正就是某種方式來引導學習。
我認為這些是我們必須解決的一些開放性問題,但你說得對。如果你考慮到人類的感知,首先,我們甚至沒有完全解決人類視覺的所有問題,對吧?3D 如何在人的視覺中發揮作用?這仍然不是一個解決了的問題。我們知道從機械角度,雙眼需要通過三角測量來獲取信息,但即便如此,我們缺乏一個完善的數學模型,而實際上,人類在 3D 感知方面并不是特別優秀。我們并不是非常擅長理解和操作三維世界,所以有很多問題等待著解答。
所以,我們現在確實處于「World Labs」的階段。我唯一能依賴的就是,我相信我們擁有世界上最聰明的人才,能在「像素世界」里解決這個問題。
硬件和軟件的融合終將到來
主持人:可以說,World Labs 正在構建的這些基礎模型,最終的輸出是 3D 世界嗎?你們正在設想哪些應用場景呢?我看到你提到了從感知到生成的各種可能性。生成模型和判別模型之間總是存在一種張力,那么這些 3D 世界的作用是什么呢?
李飛飛:是的,關于 World Labs 的具體細節我可能無法透露太多,但在空間智能方面,確實是讓我非常興奮的地方。就像語言一樣,應用場景非常廣泛。從創作開始,設計師、建筑師、工業設計師,甚至是藝術家、3D 藝術家、游戲開發者,都可以用到它。接著,機器人學和機器人學習也是一個非常重要的應用領域,空間智能模型或世界模型的用途非常廣泛。此外,很多相關行業,比如營銷、娛樂,甚至元宇宙,都會受到影響。對于元宇宙,我真的非常興奮。雖然目前還沒完全實現,我知道它現在還不是很成熟,但正是因為如此,我才更為興奮。我認為硬件和軟件的融合終將到來,未來的潛力非常巨大。這也是一個非常值得期待的應用方向。
李飛飛:是的,我覺得現在有更多的信號表明元宇宙正在逐步實現。我認為硬件確實是其中一個障礙,但更重要的是,你需要內容創作,而元宇宙的內容創作需要世界模型。
從零開始,這是我的舒適區
主持人:讓我們換個話題。對于一些觀眾來說,你從學術界轉型到現在做創始人兼 CEO 可能顯得有些突然。但實際上,你的整個人生經歷都非常非凡,這也不是你第一次從 0 到 1。你曾跟我講過,你是如何移民到美國的,剛開始完全不會說英語,還和團隊一起經營過洗衣店,做了好幾年。能不能聊聊這些經歷是如何塑造了今天的你的?
李飛飛:對吧?我知道你們肯定在這里想聽我分享如何開洗衣店的故事。哈哈。
當時我19歲,完全出于無奈。我沒有辦法支持我的家人,我的父母需要我上大學,而我想成為普林斯頓大學的物理學專業學生。所以我開了一家干洗店。在硅谷的術語中,我就是一個籌款人,創始人兼 CEO,同時也是收銀員和做所有雜事的人,最后我成功「退出」了,經營了七年。
回到 Diana 的觀點,特別是對于你們所有人,我看著你們,真的很激動,因為你們比我年輕一半,甚至三分之一,你們那么有才華,真的去做吧,不要害怕。
我整個職業生涯都這樣,當然,包括做洗衣店,甚至作為教授時,我也做過幾次選擇,我曾經選擇去一些沒有計算機視覺教授的部門,成為第一個,這和很多建議相悖。作為年輕教授,大家都會建議你去有社區和資深導師的地方,當然,我也希望有資深導師,但如果沒有,我還是要自己走自己的路。所以我一點也不害怕這些。后來我去 Google 學到了很多關于商業的知識,關于 Google Cloud 和 B2B 的東西,然后我在斯坦福創辦了一個創業公司,因為到了 2018 年,AI 已經不僅僅是行業問題,它變成了人類的問題。
人類總是會推動科技進步,但我們不能失去人性。我非常關注如何在 AI 的進步中創建一束光,設想 AI 如何能夠以人為本,如何讓 AI 幫助人類。所以,我回到斯坦福,創辦了一個人類中心的 AI 研究所,并且把它當作創業公司運營了五年??赡苡行┤瞬惶吲d我在大學里把它當作創業公司運營了這么久,但我對此非常自豪。所以從某種意義上講,我覺得自己就是喜歡做創業者。我喜歡那種從零開始的感覺,就像站在零點,忘記過去做過的事,忘記別人怎么看你,埋頭去做。這是我的舒適區,我真的非常熱愛這種感覺。
我尋找的是「智識上的無畏」
主持人:你真的很酷,除了做了所有這些了不起的事之外,你還指導了很多傳奇般的研究者,比如 Andrej Karpathy、Jim Fan(現在在 Nvidia)、Jia Deng(ImageNet 項目上的合作)。他們后來都成為了行業中的佼佼者。當他們還是學生的時候,是什么讓你看出來他們將來會成就非凡呢?你有什么建議可以分享,告訴我們如何辨識出這些會改變 AI 領域的人?
李飛飛:首先,我覺得自己很幸運,不要覺得我對學生的貢獻比他們多。他們真的讓我成為一個更好的人、更好的教師和研究員。和這么多像你說的傳奇般的學生共事,真的是我一生中的榮幸。每個學生都很不同,有些純粹是科學家,專注于解決科學問題;有些則是工業領域的領軍人物;還有一些是 AI 知識的偉大傳播者。但我覺得有一件事是他們共同的特點,我也鼓勵在座的每一位同學思考一下這個問題。
對于那些創業者,尤其是在招聘時,我的標準也是看重這個。我尋找的是「智識上的無畏」。
我認為這不僅僅和你來自哪里、我們要解決什么問題無關,最重要的是那份勇氣,敢于面對困難,全身心投入并盡力去解決。這種無畏精神真的是成功者的核心特質。我從這些學生身上學到了這一點,作為我們實驗室的 CEO,在我的招聘過程中,我也非??粗剡@一點。
主持人:你們也在為「World Labs」招聘很多人,所以你們也是在尋找相同的職位吧?
李飛飛:是的,我們確實在大規模招聘。我們正在招聘工程類人才、產品類人才、3D 人才,以及生成模型方面的人才。如果你覺得自己無所畏懼,并且對解決智能問題充滿熱情,歡迎聯系我或者來我們的網站看看。
觀眾問答
提問者 1:你好,飛飛,謝謝你的演講。我是你的超級粉絲!我的問題是,二十多年前你曾從事過視覺識別方面的工作。我現在想開始攻讀博士學位,我應該研究什么方向,才能像你一樣成為傳奇人物呢?
李飛飛:我想給你一個深思熟慮的回答,因為我總是可以說做任何讓你興奮的事情。
首先,我認為 AI 研究已經發生了變化,因為如果你正在攻讀博士學位,你就處于學術界。如今,學術界并不再擁有大多數 AI 資源,這與我當時的情況非常不同。現在的計算能力和數據資源在學術界非常有限,而產業界可以以更快的速度進行研究。因此,作為一名博士生,我建議你去尋找那些不與產業界能夠利用更強大計算能力、更豐富數據和團隊合作優勢解決的問題發生沖突的方向。仍然有一些非?;A的問題,學術界可以繼續探討,哪怕你有再多的芯片,也能取得很大進展。
首先,跨學科的人工智能對我來說是學術界一個非常令人興奮的領域,特別是在科學發現方面。有太多學科可以與 AI 交叉。我認為這是一個可以深入發展的領域。另一方面,在理論方面,我覺得非常有趣的是,AI 的能力已經完全超越了理論,我們不知道如何做到這一點,缺乏可解釋性,也不知道如何揭示因果關系。我們對模型的理解還有很多未知之處,未來可以進一步推動這一領域的發展,這里還有非常多的方向。在計算機視覺領域,依然存在一些尚未解決的問題。另外,小數據也是一個非常有趣的領域,充滿了可能性。
提問者 2:謝謝李飛飛教授,再次恭喜您獲得耶魯大學的榮譽博士學位。我很榮幸一個月前能親自見證這一時刻。我的問題是,從您的角度來看,AGI 更有可能作為一個統一的、單一的模型出現,還是作為一個「模型-智能體」系統出現呢?
李飛飛:你問的這個問題已經提出了兩種定義。一種定義更偏向理論層面,把 AGI 定義為通過某種類似 IQ 測試的標準來衡量的智能,另一部分問題則更偏向實用主義,聚焦于智能體能執行哪些任務。坦白說,我對于 AGI 的定義感到有些困惑。
這是因為,1956 年在達特茅斯會議上,人工智能的奠基人們,包括約翰·麥卡錫(John McCarthy)和馬文·明斯基(Marvin Minsky),他們當時想要解決的是能「思考」的機器問題,這個問題實際上是圖靈(Alan Turing)在他們之前提出來的。因此,這個命題并不是狹義的人工智能問題,而是一個關于智能的廣義命題。所以,我并不清楚如何將這個人工智能的奠基問題與「AGI」這個新詞區分開來。
對我而言,AGI 和 AI 是同一個問題,但我理解現在的行業里更傾向于把 AGI 看作超越 AI 的概念。我對這種理解有些掙扎,因為我不清楚到底什么是 AGI,它和 AI 到底有什么不同?如果我們說今天的「類 AGI」系統在某些任務上比上世紀 70、80、90 年代的狹義 AI 系統表現得更好,我認為這是對的,這只是該領域發展的一個自然過程。但從根本上講,我認為人工智能的本質是創造能夠像人類一樣,甚至比人類更聰明地思考和做事的機器。所以,我并不清楚如何定義 AGI,既然無法定義它,我也就無法判斷它是否是一個單一的體系。
如果從大腦的角度來看,它是一個整體,可以稱之為單一系統,但它的功能是多樣的,甚至大腦中還有像布羅卡區(Broca's area)負責語言,視覺皮層負責視覺,運動皮層負責運動等等。因此,我也不太知道該如何回答這個問題。
提問者 3:你好,我叫Yasna。首先,我想說謝謝你??吹揭晃慌栽谶@個領域中扮演領導角色,真的很令人鼓舞。作為一名研究員、教育者和企業家,我想請教一下,在人工智能飛速發展的今天,您認為什么樣的人應該去攻讀研究生學位?
李飛飛:這是一個很好的問題,甚至連家長們也曾問過我。研究生階段是你擁有強烈好奇心的四到五年。
你是由好奇心驅動的,而這種好奇心非常強烈,以至于沒有比這里更合適的地方來追求它。這與創業公司不同,因為在創業公司中,不能僅僅靠好奇心來推動。你必須小心,創業公司不僅僅是由好奇心驅動的,投資者會對你感到不滿。它更側重于實現商業目標,雖然其中也有好奇心的成分,但它并不完全是好奇心驅動的。而對于研究生來說,解決問題的好奇心或提問的能力是如此重要,我認為那些帶著這種強烈好奇心進入研究生階段的人,會真的享受這四五年,即使外部世界飛速發展,你仍然會因為追隨自己的好奇心而感到滿足。
提問者 4:首先,我想感謝您抽出時間,謝謝您來和我們分享您的觀點。您提到,開源在圖像智能的發展中起了重要作用,現在隨著大語言模型的發布和發展,我們看到不同的組織在開源方面采取了不同的策略。一些組織完全閉源,一些組織則完全開源其整個研究框架,還有一些組織采取折中的方式,開源模型權重或采用有限制的許可證等等。所以我想請問,您如何看待這些不同的開源方式?您認為正確的做法是什么?作為一家人工智能公司,開源應該如何運作?
李飛飛:我認為當生態系統中有不同的開源方式時,整個環境是健康的。我并不固執于必須開源或必須閉源,這取決于公司的商業戰略。例如,像Meta(前Facebook)為什么選擇開源是非常明確的,他們目前的商業模式并不是通過銷售模型來盈利,而是通過利用這些模型來發展生態系統,吸引更多人使用他們的平臺。所以開源對他們來說是非常有意義的。而對于其他一些真正通過這些技術盈利的公司,你可以考慮開源和閉源相結合的方式,分層次地運作。因此,我對這些方式持開放態度。
從更高層次來看,我認為開源應該受到保護,無論是在公共部門(如學術界)還是私人部門,如果有開源的努力,都是非常重要的。它對創業生態系統至關重要,也對公共部門非常重要。我認為這些努力應該得到保護,而不應該被忽視。
提問者 5:你好,我叫 Carl,來自愛沙尼亞,我有一個關于數據的問題。你提到了機器學習從數據驅動方法轉向的變化,特別是在 ImageNet 上取得的進展,而現在你們正在研究世界模型,并且你提到我們缺乏空間數據,互聯網中并不存在這些數據,只有在我們的大腦中才有。你們是如何解決這個問題的?你們的研究方向是什么?你們是在從現實世界收集數據,還是生成合成數據?你們相信合成數據嗎?還是更相信傳統的先驗知識?謝謝。
李飛飛:你應該加入我的「World Labs」,我會告訴你。作為一家公司,我不能分享太多,但我認為重要的是要承認我們采用的是一種混合方法。擁有大量數據確實很重要,但同樣重要的是擁有高質量的數據。歸根結底,如果你不注意數據的質量,最終結果還是垃圾進垃圾出。
提問者 6:你好,李飛飛博士,我叫 Annie,非常感謝您與我們交流。在您的書《The World》中,我看到您談到了作為一名移民女孩和女性在 STEM 領域面臨的挑戰。我很想知道,您是否有過在職場中感受到自己是少數群體的時刻?如果有,您是如何克服這一困境或說服他人的?
有時候這與我是誰有關,有時候與我的想法有關,有時候也許只是因為我穿的衣服顏色,反正總會有各種原因。但在這方面,我確實想鼓勵大家。也許是因為我從小來到這個國家,我積累了一些經驗。我已經接受了這一點:我就是一名移民女性。我幾乎發展出了一個能力,就是不會過度在意這些。我在這里,就像你們每個人一樣。我在這里學習、做事、創造東西。
我真的想對你們每一個人說,你們正要開始做一些事情,或者已經在做某件事情的過程中,你們會有脆弱或困惑的時刻,我每天都會有這種感覺,尤其是在創業生活中。有時候我會想,天啊,我不知道自己在做什么。別擔心,專注于去做。像梯度下降一樣,一步步朝著最優解前進。