日韩精品高清在线观看,国产精品18hdxxxⅹ在线,宅男av一区二区三区

一次性揭秘 Gemini 多模態(tài)技術(shù)！

就在剛剛，Gemini 模型行為產(chǎn)品負(fù)責(zé)人Ani Baddepudi在谷歌自家的開發(fā)者頻道開啟了爆料模式。

他和 OpenAI 前員工、現(xiàn)谷歌 AI Studio 產(chǎn)品負(fù)責(zé)人（Logan Kilpatrick，右）探討了諸多眾人好奇已久的問題：

為啥 Gemini 一開始就被設(shè)計(jì)為原生多模態(tài)？

將圖像和視頻轉(zhuǎn)化為 token 時(shí)，是否會存在壓縮損失或信息丟失？

Gemini 2.5 為何在視頻理解方面表現(xiàn)出色？

多模態(tài)框架下，一個能力的提升是否會帶動其他能力的整體提升？

……

一言以蔽之，整個談話幾乎都圍繞著Gemini 多模態(tài)展開，包括其背后設(shè)計(jì)理念、當(dāng)前應(yīng)用以及未來發(fā)展方向。

之所以這場談話值得關(guān)注，實(shí)在是因?yàn)?Gemini 多模態(tài)過于響當(dāng)當(dāng)和重要了。

2023 年 12 月，谷歌原生多模態(tài) Gemini 1.0 模型正式上線，一舉將 AI 競賽由 ChatGPT 主導(dǎo)的文本領(lǐng)域帶入多模態(tài)領(lǐng)域。

，不僅在代碼、推理等任務(wù)上更上一層樓，而且還拿下視覺能力第一，可以說夯實(shí)了谷歌在多模態(tài)領(lǐng)域的領(lǐng)先地位。

此時(shí)回看 Gemini 當(dāng)時(shí)的一些設(shè)計(jì)理念，會發(fā)現(xiàn)其前瞻性與創(chuàng)新性不僅為后續(xù)的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)，而且對未來仍具有指導(dǎo)意義。

敲黑板，整場談話干貨滿滿，咱們這就開始 ~

為啥 Gemini 一開始就被設(shè)計(jì)為多模態(tài)？

一個智能體的世界如果只有文字，能讀懂莎士比亞、能編寫代碼，甚至可以和你進(jìn)行深入的哲學(xué)對話，但它看不到屏幕上跳動的圖標(biāo)、認(rèn)不出廚房正在烹飪的食材、不能理解一幅畫或者一段視頻的意境。

這樣的智能體完整嗎？

谷歌的 Gemini 模型給出了一個響亮的答案：不，不完整。

而這，就是 Gemini 在誕生之初就被設(shè)計(jì)為多模態(tài)的根本原因。

訪談一開始，Logan Kilpatrick 就問了這個根源性的問題：

為什么 Gemini 從一開始就被設(shè)計(jì)為多模態(tài)模型？

Ani Baddepudi 強(qiáng)調(diào)，如果想要構(gòu)建通用人工智能（AGI）和強(qiáng)大的 AI 系統(tǒng)，那么多模態(tài)的能力必不可少。

最初的目標(biāo)是為了讓模型能夠像人類一樣看世界，而視覺是人類感知世界的核心組成部分，許多領(lǐng)域（如醫(yī)學(xué)、金融）的任務(wù)都有很大的視覺成分，因此多模態(tài)設(shè)計(jì)至關(guān)重要。

Gemini 作為一個原生的多模態(tài)模型，這意味著它并非將不同的單一模態(tài)模型拼湊起來。

而是從零開始，將文本、圖像、視頻和音頻等所有模態(tài)都轉(zhuǎn)化為統(tǒng)一的 "token 表示 "，并在這些信息上進(jìn)行協(xié)同訓(xùn)練。

既然提到了信息 "token 化 "，Logan Kilpatrick 繼續(xù)尋求爆料：

將圖像、視頻轉(zhuǎn)化為 token 表示時(shí)，是否存在信息損失？模型是如何處理的？

在這個問題上，Ani Baddepudi 承認(rèn)，將圖像、視頻轉(zhuǎn)化為 token 表示時(shí)會有一些固有的信息損失，如何使特征表示的損失更小是一個需要持續(xù)研究的問題。

但令人驚訝的是，模型看到足夠多的圖像和視頻后，即使采樣率較低，比如以每秒一幀（1FPS）的速度采樣，模型依然能呈現(xiàn)良好的泛化能力。

Gemini 2.5 在視頻理解上 " 令人驚嘆 "

接下來 Logan Kilpatrick 還特意 cue 到了Gemini 2.5 系列模型。

在他之前的一篇推文中，Gemini 2.5 Pro 在視頻理解方面的 SOTA 成績令人印象深刻。

而對于這一亮點(diǎn)，Ani Baddepudi 也補(bǔ)充了更多細(xì)節(jié)。

不過在展開前，他也再次感嘆：

Gemini 2.5 在視頻理解方面相當(dāng)令人驚嘆 !

第一，它解決了之前模型在魯棒性方面的問題。

舉個例子，之前給模型輸入 1 小時(shí)視頻，通常它只會關(guān)注前 5~10 分鐘，然后對視頻其余部分的關(guān)注就逐漸減弱，所以團(tuán)隊(duì)針對長上下文視頻進(jìn)行了改進(jìn)。

第二，它意味著，團(tuán)隊(duì)將核心視覺能力的改進(jìn)泛化到了視頻。

簡單而言，Gemini 2.5真正解鎖了視頻作為信息媒介的能力，能夠完成將視頻轉(zhuǎn)換為代碼（如食譜、講座筆記）等非常實(shí)用的任務(wù)。

第三，它讓團(tuán)隊(duì)看到了多模態(tài)能力的正向遷移以及多項(xiàng)視覺能力整合。

Ani Baddepudi 表示，擁有一個單一多模態(tài)模型的好處在于，能夠看到大量的積極能力遷移。

就拿 Gemini 2.5" 視頻轉(zhuǎn)代碼 " 功能來說，這其實(shí)是因?yàn)槟Ｐ驮诖a處理能力方面本身就更強(qiáng)大。

其次，過去需要獨(dú)立模型處理的 OCR、檢測、分割等能力，現(xiàn)在都整合進(jìn)了 Gemini 中，從而帶來了許多新的用例。

例如轉(zhuǎn)錄視頻時(shí)，既需要強(qiáng)大的 OCR 能力，也需要強(qiáng)大的時(shí)間理解能力，才能讓模型理解視頻中發(fā)生了什么然后進(jìn)行轉(zhuǎn)錄。

還包括讓 Ani Baddepudi 等人感到興奮的一個用例——結(jié)對程序員，即通過流式傳輸 IDE 視頻，然后詢問代碼庫問題。這需要模型具備強(qiáng)大的編碼、核心視覺（空間理解、OCR）以及對視頻中信息隨時(shí)間變化的理解能力。

總之，按照 Ani Baddepudi 的說法，Gemini 是少數(shù)能夠進(jìn)行視頻輸入和最先進(jìn)視頻理解的基礎(chǔ)模型之一。

當(dāng)然，這背后也離不開一些關(guān)鍵技術(shù)。

據(jù) Ani Baddepudi 透露，要讓 Gemini 理解視頻，它需要同時(shí)理解音頻和視覺部分。

這是一個相當(dāng)棘手的問題，因?yàn)槟阈枰@些東西對齊。

目前的解決方案是，在視頻的每個給定時(shí)間塊（或小片段）內(nèi)，將該時(shí)間塊的音頻信息和與該音頻對應(yīng)的視頻幀（即圖像）交錯在一起進(jìn)行處理。

所謂 " 交錯 " 是指，將同時(shí)發(fā)生的音頻和視覺信息捆綁或混合起來，供模型共同學(xué)習(xí)和理解。

這一方法在泛化方面非常出色，能讓模型很好地理解視頻，表現(xiàn)非常自然。

此外，盡管當(dāng)前主要以 1FPS（每秒幀數(shù)）采樣進(jìn)行訓(xùn)練，但通過更高效的 token 化方式（每幀用 64 個 token 表示，而非之前的 256 個），模型能夠在較低細(xì)節(jié)下實(shí)現(xiàn)令人驚訝的高性能。

通過這一方式，Gemini 現(xiàn)在可以處理長達(dá) 6 小時(shí)的視頻，擁有 200 萬上下文 token。

而且 Ani Baddepudi 表示，團(tuán)隊(duì)正在努力支持更高幀率的視頻理解，以應(yīng)對如高爾夫揮桿分析、舞蹈動作評判等需要更精細(xì)時(shí)間細(xì)節(jié)的用例。

" 萬物皆視覺 " 的產(chǎn)品理念

Ani Baddepudi 還提到了 Gemini" 萬物皆視覺 "的產(chǎn)品理念。

他將視覺用例分為三類，這些分類指導(dǎo)著產(chǎn)品開發(fā)的方向。

第一種是現(xiàn)有模型能做到的。

比如傳統(tǒng)的 OCR（光學(xué)字符識別）、翻譯、圖像檢索（例如 Google Lens 用于購物）、以及分類（例如識別植物或動物）等。

第二種是人類專家能夠做到的。

比如文檔分析、內(nèi)容整理與視頻理解與推理等，這些任務(wù)通過 Gemini 的視覺能力能夠更高效、無損地完成。

第三種是超越人類或在可行時(shí)間內(nèi)無法完成的任務(wù)。

比如將講座視頻轉(zhuǎn)換為可交互式學(xué)習(xí)的應(yīng)用程序、在烹飪時(shí)主動提醒何時(shí)加入食材。

再比如，當(dāng)你在城市中行走時(shí)，可以通過視覺向 Gemini 提問關(guān)于周圍事物的問題，而不需要費(fèi)力地將問題轉(zhuǎn)化為文本。

這就需要模型不僅能夠看到屏幕上的內(nèi)容，還能看到真實(shí)的物理世界。

關(guān)于未來產(chǎn)品的體驗(yàn)，Ani Baddepudi 給出了極具吸引力的回答：

想象你有一個專家人類在你的肩膀上，看到你所能看到的一切，并幫助你完成事情。

關(guān)于 Gemini 多模態(tài)團(tuán)隊(duì)

聊天最后， Ani Baddepudi 分享了 Gemini 多模態(tài)團(tuán)隊(duì)的協(xié)作方式和工作重心。

在他看來，要想實(shí)現(xiàn)多模態(tài)能力，這離不開一支龐大的研究隊(duì)伍。

多模態(tài)之所以令人驚嘆，是因?yàn)樗鼡碛腥绱硕嗟哪芰Γ獙?shí)現(xiàn)這些能力，一個非常困難的問題是需要將這些能力整合到一個單一模型中，并確保每種能力都能表現(xiàn)出色。

就是說，每整合一種能力都需要相關(guān)方向的大量人才。

然后，他進(jìn)一步解釋了團(tuán)隊(duì)如何將研究轉(zhuǎn)化為產(chǎn)品。

首先，團(tuán)隊(duì)深入思考開發(fā)者和消費(fèi)者將如何使用這些視覺能力，并努力將這種直覺融入到模型中，形成了緊密的產(chǎn)品 - 模型反饋循環(huán)。

一年后、兩年后、五年后人們將如何與這些模型互動？

因?yàn)樵?Ani Baddepudi 看來，今天開發(fā)的許多能力都是構(gòu)建未來愿景的基石。

而且他認(rèn)為接下來的重點(diǎn)是，如何讓這些模型感覺更自然、更具交互性。

目前許多 AI 產(chǎn)品都是 " 回合制 " 系統(tǒng)（即你查詢模型，它返回答案，然后你再次查詢），這感覺 " 不自然 " 且 " 有點(diǎn)過時(shí) "。

至于具體如何實(shí)現(xiàn)，Ani Baddepudi 從模型行為角度出發(fā)歸納了以下幾點(diǎn)：

賦予模型同理心（empathy）；

讓模型不僅能夠理解用戶，還要能理解用戶的隱含意圖；

在平衡 Gemini 現(xiàn)有強(qiáng)大原生能力的同時(shí)，賦予模型 " 個性 "（personality）。

同時(shí)他還提到，鑒于目前許多 AI 用例只返回大量文本，他正在思考是否能用有趣的視覺形式來以更信息密集或 " 高熱量 "（high-calorie）的方式傳達(dá)信息。

這也許是讓 Gemini 變得 " 友好 " 且 " 易于交流 " 的關(guān)鍵突破點(diǎn)。

參考鏈接：

[ 1 ] https://www.youtube.com/watch?v=K4vXvaRV0dw

[ 2 ] https://x.com/OfficialLoganK/status/1940531108476780780

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法！

— 完 —

專屬 AI 產(chǎn)品從業(yè)者的實(shí)名社群，只聊 AI 產(chǎn)品最落地的真問題 掃碼添加小助手，發(fā)送「姓名 + 公司 + 職位」申請入群～

進(jìn)群后，你將直接獲得：

最新最專業(yè)的 AI 產(chǎn)品信息及分析

不定期發(fā)放的熱門產(chǎn)品內(nèi)測碼

內(nèi)部專屬內(nèi)容與專業(yè)討論

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

Gemini 負(fù)責(zé)人爆料！多模態(tài)統(tǒng)一 token 表示，視覺至關(guān)重要

宙世代

一起剪

相關(guān)閱讀

限時(shí)3天！華為手機(jī)免費(fèi)貼膜、維修免人工費(fèi)

全球最輕薄折疊屏！榮耀Magic V5首銷：狂攬8項(xiàng)世界紀(jì)錄 8999元起

智能體狂奔之時(shí)，安全是否就緒了？

阿里，3800億AI新長征

YU7 剛出就剎車起火？這還真怪不了小米。

500億元補(bǔ)貼12個月！淘寶閃購再加碼

常州夫妻向世界傳遞“好聲音”，攢下173億元財(cái)富

小鵬G7 Ultra算力全球第一！搭載三顆圖靈AI芯片 2250Tops

大疆尋找地面

富士康要求中國員工從印度撤離！蘋果剛準(zhǔn)備在印度擴(kuò)大iPhone 17產(chǎn)能

小紅書辟謠被阿里收購：系謠言

榮耀Magic V5 體驗(yàn)：極致輕薄太驚艷、但也有代價(jià)

微軟再裁9000人引員工不滿：一邊稱盈利最強(qiáng) 一邊啟動裁員

微米級“腦地圖”來了！中國科學(xué)家突破腦科學(xué)研究關(guān)鍵技術(shù)

最新評論

量子位

熱門推薦