關(guān)于ZAKER 合作
量子位 17小時(shí)前

Gemini 負(fù)責(zé)人爆料!多模態(tài)統(tǒng)一 token 表示,視覺至關(guān)重要

一次性揭秘 Gemini 多模態(tài)技術(shù)!

就在剛剛,Gemini 模型行為產(chǎn)品負(fù)責(zé)人Ani Baddepudi在谷歌自家的開發(fā)者頻道開啟了爆料模式。

他和 OpenAI 前員工、現(xiàn)谷歌 AI Studio 產(chǎn)品負(fù)責(zé)人(Logan Kilpatrick,右)探討了諸多眾人好奇已久的問題:

為啥 Gemini 一開始就被設(shè)計(jì)為原生多模態(tài)?

將圖像和視頻轉(zhuǎn)化為 token 時(shí),是否會存在壓縮損失或信息丟失?

Gemini 2.5 為何在視頻理解方面表現(xiàn)出色?

多模態(tài)框架下,一個能力的提升是否會帶動其他能力的整體提升?

……

一言以蔽之,整個談話幾乎都圍繞著Gemini 多模態(tài)展開,包括其背后設(shè)計(jì)理念、當(dāng)前應(yīng)用以及未來發(fā)展方向。

之所以這場談話值得關(guān)注,實(shí)在是因?yàn)?Gemini 多模態(tài)過于響當(dāng)當(dāng)和重要了。

2023 年 12 月,谷歌原生多模態(tài) Gemini 1.0 模型正式上線,一舉將 AI 競賽由 ChatGPT 主導(dǎo)的文本領(lǐng)域帶入多模態(tài)領(lǐng)域。

,不僅在代碼、推理等任務(wù)上更上一層樓,而且還拿下視覺能力第一,可以說夯實(shí)了谷歌在多模態(tài)領(lǐng)域的領(lǐng)先地位。

此時(shí)回看 Gemini 當(dāng)時(shí)的一些設(shè)計(jì)理念,會發(fā)現(xiàn)其前瞻性與創(chuàng)新性不僅為后續(xù)的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ),而且對未來仍具有指導(dǎo)意義。

敲黑板,整場談話干貨滿滿,咱們這就開始 ~

為啥 Gemini 一開始就被設(shè)計(jì)為多模態(tài)?

一個智能體的世界如果只有文字,能讀懂莎士比亞、能編寫代碼,甚至可以和你進(jìn)行深入的哲學(xué)對話,但它看不到屏幕上跳動的圖標(biāo)、認(rèn)不出廚房正在烹飪的食材、不能理解一幅畫或者一段視頻的意境。

這樣的智能體完整嗎?

谷歌的 Gemini 模型給出了一個響亮的答案:不,不完整。

而這,就是 Gemini 在誕生之初就被設(shè)計(jì)為多模態(tài)的根本原因

訪談一開始,Logan Kilpatrick 就問了這個根源性的問題:

為什么 Gemini 從一開始就被設(shè)計(jì)為多模態(tài)模型?

Ani Baddepudi 強(qiáng)調(diào),如果想要構(gòu)建通用人工智能(AGI)和強(qiáng)大的 AI 系統(tǒng),那么多模態(tài)的能力必不可少。

最初的目標(biāo)是為了讓模型能夠像人類一樣看世界,而視覺是人類感知世界的核心組成部分,許多領(lǐng)域(如醫(yī)學(xué)、金融)的任務(wù)都有很大的視覺成分,因此多模態(tài)設(shè)計(jì)至關(guān)重要。

Gemini 作為一個原生的多模態(tài)模型,這意味著它并非將不同的單一模態(tài)模型拼湊起來。

而是從零開始,將文本、圖像、視頻和音頻等所有模態(tài)都轉(zhuǎn)化為統(tǒng)一的 "token 表示 ",并在這些信息上進(jìn)行協(xié)同訓(xùn)練。

既然提到了信息 "token 化 ",Logan Kilpatrick 繼續(xù)尋求爆料:

將圖像、視頻轉(zhuǎn)化為 token 表示時(shí),是否存在信息損失?模型是如何處理的?

在這個問題上,Ani Baddepudi 承認(rèn),將圖像、視頻轉(zhuǎn)化為 token 表示時(shí)會有一些固有的信息損失,如何使特征表示的損失更小是一個需要持續(xù)研究的問題。

但令人驚訝的是,模型看到足夠多的圖像和視頻后,即使采樣率較低,比如以每秒一幀(1FPS)的速度采樣,模型依然能呈現(xiàn)良好的泛化能力。

Gemini 2.5 在視頻理解上 " 令人驚嘆 "

接下來 Logan Kilpatrick 還特意 cue 到了Gemini 2.5 系列模型

在他之前的一篇推文中,Gemini 2.5 Pro 在視頻理解方面的 SOTA 成績令人印象深刻。

而對于這一亮點(diǎn),Ani Baddepudi 也補(bǔ)充了更多細(xì)節(jié)。

不過在展開前,他也再次感嘆:

Gemini 2.5 在視頻理解方面相當(dāng)令人驚嘆 !

第一,它解決了之前模型在魯棒性方面的問題。

舉個例子,之前給模型輸入 1 小時(shí)視頻,通常它只會關(guān)注前 5~10 分鐘,然后對視頻其余部分的關(guān)注就逐漸減弱,所以團(tuán)隊(duì)針對長上下文視頻進(jìn)行了改進(jìn)。

第二,它意味著,團(tuán)隊(duì)將核心視覺能力的改進(jìn)泛化到了視頻。

簡單而言,Gemini 2.5真正解鎖了視頻作為信息媒介的能力,能夠完成將視頻轉(zhuǎn)換為代碼(如食譜、講座筆記)等非常實(shí)用的任務(wù)。

第三,它讓團(tuán)隊(duì)看到了多模態(tài)能力的正向遷移以及多項(xiàng)視覺能力整合

Ani Baddepudi 表示,擁有一個單一多模態(tài)模型的好處在于,能夠看到大量的積極能力遷移。

就拿 Gemini 2.5" 視頻轉(zhuǎn)代碼 " 功能來說,這其實(shí)是因?yàn)槟P驮诖a處理能力方面本身就更強(qiáng)大。

其次,過去需要獨(dú)立模型處理的 OCR、檢測、分割等能力,現(xiàn)在都整合進(jìn)了 Gemini 中,從而帶來了許多新的用例。

例如轉(zhuǎn)錄視頻時(shí),既需要強(qiáng)大的 OCR 能力,也需要強(qiáng)大的時(shí)間理解能力,才能讓模型理解視頻中發(fā)生了什么然后進(jìn)行轉(zhuǎn)錄。

還包括讓 Ani Baddepudi 等人感到興奮的一個用例——結(jié)對程序員,即通過流式傳輸 IDE 視頻,然后詢問代碼庫問題。這需要模型具備強(qiáng)大的編碼、核心視覺(空間理解、OCR)以及對視頻中信息隨時(shí)間變化的理解能力。

總之,按照 Ani Baddepudi 的說法,Gemini 是少數(shù)能夠進(jìn)行視頻輸入和最先進(jìn)視頻理解的基礎(chǔ)模型之一

當(dāng)然,這背后也離不開一些關(guān)鍵技術(shù)。

據(jù) Ani Baddepudi 透露,要讓 Gemini 理解視頻,它需要同時(shí)理解音頻和視覺部分

這是一個相當(dāng)棘手的問題,因?yàn)槟阈枰@些東西對齊。

目前的解決方案是,在視頻的每個給定時(shí)間塊(或小片段)內(nèi),將該時(shí)間塊的音頻信息和與該音頻對應(yīng)的視頻幀(即圖像)交錯在一起進(jìn)行處理。

所謂 " 交錯 " 是指,將同時(shí)發(fā)生的音頻和視覺信息捆綁或混合起來,供模型共同學(xué)習(xí)和理解。

這一方法在泛化方面非常出色,能讓模型很好地理解視頻,表現(xiàn)非常自然。

此外,盡管當(dāng)前主要以 1FPS(每秒幀數(shù))采樣進(jìn)行訓(xùn)練,但通過更高效的 token 化方式(每幀用 64 個 token 表示,而非之前的 256 個),模型能夠在較低細(xì)節(jié)下實(shí)現(xiàn)令人驚訝的高性能。

通過這一方式,Gemini 現(xiàn)在可以處理長達(dá) 6 小時(shí)的視頻,擁有 200 萬上下文 token。

而且 Ani Baddepudi 表示,團(tuán)隊(duì)正在努力支持更高幀率的視頻理解,以應(yīng)對如高爾夫揮桿分析、舞蹈動作評判等需要更精細(xì)時(shí)間細(xì)節(jié)的用例。

" 萬物皆視覺 " 的產(chǎn)品理念

Ani Baddepudi 還提到了 Gemini" 萬物皆視覺 "的產(chǎn)品理念。

他將視覺用例分為三類,這些分類指導(dǎo)著產(chǎn)品開發(fā)的方向。

第一種是現(xiàn)有模型能做到的。

比如傳統(tǒng)的 OCR(光學(xué)字符識別)、翻譯、圖像檢索(例如 Google Lens 用于購物)、以及分類(例如識別植物或動物)等。

第二種是人類專家能夠做到的。

比如文檔分析、內(nèi)容整理與視頻理解與推理等,這些任務(wù)通過 Gemini 的視覺能力能夠更高效、無損地完成。

第三種是超越人類或在可行時(shí)間內(nèi)無法完成的任務(wù)。

比如將講座視頻轉(zhuǎn)換為可交互式學(xué)習(xí)的應(yīng)用程序、在烹飪時(shí)主動提醒何時(shí)加入食材。

再比如,當(dāng)你在城市中行走時(shí),可以通過視覺向 Gemini 提問關(guān)于周圍事物的問題,而不需要費(fèi)力地將問題轉(zhuǎn)化為文本。

這就需要模型不僅能夠看到屏幕上的內(nèi)容,還能看到真實(shí)的物理世界

關(guān)于未來產(chǎn)品的體驗(yàn),Ani Baddepudi 給出了極具吸引力的回答:

想象你有一個專家人類在你的肩膀上,看到你所能看到的一切,并幫助你完成事情。

關(guān)于 Gemini 多模態(tài)團(tuán)隊(duì)

聊天最后, Ani Baddepudi 分享了 Gemini 多模態(tài)團(tuán)隊(duì)的協(xié)作方式和工作重心。

在他看來,要想實(shí)現(xiàn)多模態(tài)能力,這離不開一支龐大的研究隊(duì)伍。

多模態(tài)之所以令人驚嘆,是因?yàn)樗鼡碛腥绱硕嗟哪芰Γ獙?shí)現(xiàn)這些能力,一個非常困難的問題是需要將這些能力整合到一個單一模型中,并確保每種能力都能表現(xiàn)出色。

就是說,每整合一種能力都需要相關(guān)方向的大量人才。

然后,他進(jìn)一步解釋了團(tuán)隊(duì)如何將研究轉(zhuǎn)化為產(chǎn)品。

首先,團(tuán)隊(duì)深入思考開發(fā)者和消費(fèi)者將如何使用這些視覺能力,并努力將這種直覺融入到模型中,形成了緊密的產(chǎn)品 - 模型反饋循環(huán)

一年后、兩年后、五年后人們將如何與這些模型互動?

因?yàn)樵?Ani Baddepudi 看來,今天開發(fā)的許多能力都是構(gòu)建未來愿景的基石。

而且他認(rèn)為接下來的重點(diǎn)是,如何讓這些模型感覺更自然、更具交互性

目前許多 AI 產(chǎn)品都是 " 回合制 " 系統(tǒng)(即你查詢模型,它返回答案,然后你再次查詢),這感覺 " 不自然 " 且 " 有點(diǎn)過時(shí) "。

至于具體如何實(shí)現(xiàn),Ani Baddepudi 從模型行為角度出發(fā)歸納了以下幾點(diǎn):

賦予模型同理心(empathy);

讓模型不僅能夠理解用戶,還要能理解用戶的隱含意圖;

在平衡 Gemini 現(xiàn)有強(qiáng)大原生能力的同時(shí),賦予模型 " 個性 "(personality)。

同時(shí)他還提到,鑒于目前許多 AI 用例只返回大量文本,他正在思考是否能用有趣的視覺形式來以更信息密集或 " 高熱量 "(high-calorie)的方式傳達(dá)信息。

這也許是讓 Gemini 變得 " 友好 " 且 " 易于交流 " 的關(guān)鍵突破點(diǎn)。

參考鏈接:

[ 1 ] https://www.youtube.com/watch?v=K4vXvaRV0dw

[ 2 ] https://x.com/OfficialLoganK/status/1940531108476780780

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法!

專屬 AI 產(chǎn)品從業(yè)者的實(shí)名社群,只聊 AI 產(chǎn)品最落地的真問題 掃碼添加小助手,發(fā)送「姓名 + 公司 + 職位」申請入群~

進(jìn)群后,你將直接獲得:

最新最專業(yè)的 AI 產(chǎn)品信息及分析

不定期發(fā)放的熱門產(chǎn)品內(nèi)測碼

內(nèi)部專屬內(nèi)容與專業(yè)討論

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見

相關(guān)標(biāo)簽

最新評論

沒有更多評論了
主站蜘蛛池模板: 么公的又大又深又硬想要 | 视频在线免费观看资源| 欧美色图在线视频| 2019中文字幕在线电影免费| 999影院成人在线影院| 99热这里有免费国产精品| fc2免费人成在线视频| sss视频在线精品| 99精品热这里只有精品| jzzjzzjzz日本| 99久久综合精品五月天| a级毛片免费全部播放| WWW夜片内射视频日韩精品成人| www.成人av.com| 99精品国产99久久久久久97| a级毛片免费观看在线播放 | 久久久久亚洲AV无码专区网站| 久久婷婷五月综合97色| 久久99精品久久| 中文字幕av无码无卡免费| 一区二区三区免费精品视频| jizz国产在线播放| 91麻豆高清国产在线播放 | **实干一级毛片aa免费| 欧美日韩另类综合| 蜜桃精品免费久久久久影院| 翁公厨房嫒媛猛烈进出| 狠狠做五月深爱婷婷天天综合| 欧美高清性色生活片免费观看| 杨玉环三级dvd| 日本免费中文字幕在线看| 成在人线AV无码免费| 天天躁日日躁狠狠躁av麻豆| 国产美女被遭强高潮免费网站| 国产福利在线导航| 国产乱子伦精品免费无码专区| 免费网站看v片在线成人国产系列 免费网站看v片在线香蕉 | 美美哒韩国免费高清在线观看 | 篠田优在线一区中文字幕| 毛片免费在线观看网址| 日韩免费视频在线观看|