關于ZAKER 合作
極客公園 17小時前

AI 語音爆發的這半年,一位「局中人」看到的賽道爆發邏輯

過去半年,「AI 語音」賽道正密集地獲得融資。尤其引人注目的是,這些融資多為大額,并且投向早期團隊。

比如,前不久 AI 語音應用 Wispr Flow 靠「默念輸入」,完成了 3000 萬美元的 A 輪融資,累計融資額已達 5600 萬美元;語音模型公司 Cartesia 在 3 月份完成了 6400 萬美元的 A 輪融資,累計融資 9100 萬美元;AI 語音合成公司 ElevenLabs 更是在 1 月份宣布完成 1.8 億美元的 C 輪融資,估值超過 30 億美元

與此同時,無論是 Meta、OpenAI、Google 等科技巨頭,還是 MiniMax 等創業公司,都在密集發布自己的語音模型或語音產品。Siri 也被曝出或將被 ChatGPT 或 Claude 等模型接管,來跟上語音交互的進展。

這些消息無一例外都指向了 AI 語音的火爆。

為什么過去半年多以來,AI 語音領域會如此集中地爆發?

聲智副總裁黃赟賀認為,語音對話從一個 App 中的功能模塊,迅速進化為 AI 時代入口級別的存在,與大模型的加持有極大關系。

在智能音箱紅極一時的年代,大部分我們熟知的智能音箱品牌都搭載了聲智的遠場聲學交互技術,比如小愛同學、天貓精靈、小度音箱等等。而「小愛小愛」的喚醒詞,實際上也是來自于聲智

這家公司創辦于 2016 年,一直在聲學 + AI 交叉領域探索。然而,作為一家在幕后提供 AI 聲學技術的公司,在大模型浪潮來臨之后,果斷選擇下場投身開發自己的 C 端產品。毫無疑問,他們看到了這波「大模型 + 語音」浪潮里新的商業機會,其旗下的 AI 耳機目前出貨量已接近 100 萬套

前不久,極客公園與聲智副總裁黃赟賀聊了聊AI語音市場的爆發邏輯、語音交互的「卡點」,以及它將如何影響我們的未來。

以下內容根據黃赟賀的講述和聲智的論文整理而成:

AI 語音的想象力,已經遠在 Siri 之上|圖片來源:網絡

AI 語音為何現在爆發了?

最近兩年,越來越多的 AI 語音初創團隊獲得大額融資,集中爆發。

其中,一個很重要的推動因素是,大模型讓聲音這項基礎能力首次實現了「可編程化」

「可編程化」這個詞,意味著將一種能力或者一個對象,通過清晰的接口和邏輯,變得可以被代碼自由地調用、組合、修改和控制。過去,文字是可編程的,圖像是可編程的,甚至視頻也是可編程的(比如視頻編輯軟件)。

但聲音更多的是一種「輸入」或「輸出」的介質,其內部的復雜結構和信息,很難被軟件直接「編程」和「理解」。

傳統的語音識別,更多是把聲音轉換成文字,然后對文字進行處理。

比如,之前在深圳、成都有很多做聲音標注的團隊,拿到語音之后,再人工轉換成文字,打上不同的標簽,比如各種特征、意向的標簽。

大模型來了之后,打標簽的這項工作可以交給大模型,它比大量的人工團隊標得快和準。

以前做 NLP 的背后都是一堆苦逼的運營在那里打標簽,讓 AI 系統能夠識別每個句子的意向。過去,語音的開發,每增加一個功能,都需要從頭寫代碼,費時費力。比如,想讓智能音箱支持「點外賣」,得單獨開發一套語音識別和語義邏輯,成本高、周期長。

而現在 AI 大模型可以解決了。

更重要的,依靠大模型對多模態數據的深度理解能力,對聲學信號的更細致解析,使得聲音本身攜帶的除了文字信息之外的更多信息,開始被 AI 系統直接捕捉、理解和「編程」。

這種可編程化,意味著 AI 可以像處理數據一樣處理聲音。它可以分析聲音的頻率、振幅、波形,提取出情緒特征、識別不同的聲源、聲源距離、甚至預測你的意圖。

這時,聲音包含的不再僅僅是「你說了什么」,更是「你如何說」、「你在哪里說」、「誰在說」以及「你說了之后希望發生什么」。

由此,聲音也成為了真正的交互引擎。

真正的語音交互,不是「Voice」而是「Sound」

其實,很多人以為,語音交互就是「Voice」(語音)。但其實 Voice 這個詞是一個狹窄概念。真正的語音交互,核心不是「Voice」,而是「Sound」(聲音)。Sound 里面包含了 Voice。

具體來說,「Sound」包含了更豐富的元素:語調、音色、節奏、情緒,更重要的是環境音。環境音里面可能包含了環境中的各種非語音信息,比如背景音樂、環境噪音(風聲、雨聲、車聲)、物體發出的聲音(開門聲、打字聲)、以及人類語音中包含的非語義信息(語調、語速、音色、語氣詞、嘆息聲、笑聲、哭聲等)。

比如說,你咳嗽的時候,跟 AI 說話,它可能會識別出咳嗽,然后跟你說多喝水;比如,你在咖啡館說,「幫我找個安靜的地方」,AI 不僅要理解你的指令,還要從背景音中判斷出你當前的環境嘈雜,從而推薦附近的圖書館。

當我說「下一代對話交互的入口并非『Voice』,而是『Sound』」時,我指的是 AI 系統將不再僅僅依賴于識別你說的「詞」,而是能夠全面感知和理解你所處環境的「聲學場景」中的所有關鍵元素。

只有當 AI 能夠全面感知并解析「Sound」中包含的這些多維度信息時,它才能真正理解用戶的深層需求,提供更精準、更個性化、更富有情感的交互。這才是真正的「語音交互」,它不僅僅是「聽懂」字面意思,更是「聽懂」你的「言外之意」和「心聲」。

語音交互的「卡點」,大廠燒錢也沒用

盡管大模型帶來了語音交互的巨大飛躍,但語音交互當下依然存在一個核心的「卡點」,而這個卡點根植于物理學,具體來說,就是聲學。

我們常說「聽清、聽懂、會說」。「聽懂」和「會說」的能力,正在被大模型以前所未有的速度提升。但「聽清」這個最基礎的環節,卻受到物理層面的制約。如果 AI 聽不清你的指令,即便它能「聽懂」再復雜的語義,能「會說」再動聽的話語,那也都是空中樓閣。

比如說當下最熱門的具身智能,現在很多機器人都是電驅動的,那么它帶來幾個大問題,一方面是電路的噪聲本身就很大,另一方面是關節噪聲,還有就是很多機器人是金屬材質,厚厚的,聲音在穿透時會大幅衰減。

所以,機器人動起來的時候,噪聲很大,尤其在室外,更難聽清楚人的指令。要么大聲喊,或者拿麥克風喊。因此,現在很多機器人都要靠遙控器來控制。

當下最先進的具身智能機器人仍然依賴于遙控器來操控|圖片來源:網絡

這方面,其實就需要對聲學層面的突破,比如說環境噪聲的抑制,比如電路底噪的抑制,還有嘯叫的抑制、混響回響的抑制等等。

而這些就是物理學科的邏輯,它需要數據樣本,需要 know how 的壁壘,不僅是技術問題,而是時間的問題,需要時間去采集聲音、做訓練。

這不是燒錢能解決的。

讓 AI 準確地「聽清」用戶的指令,依然是一個世界級的難題。而聲學相關的人才很少,所以像谷歌、微軟、蘋果經常會收購聲學技術的初創公司,幾乎只要出來一家就會收購他們。

大家都明白,要構建真正的下一代人機交互系統,擁有核心的聲學能力是基石。

語音交互的下一站,是實現「共情」

現在很多 AI 應用的日活、留存不高,有個很大的原因就是普通人本身是不會提問的,讓人向大模型提問,這本身就是一個非常高的交互門檻。

好的提問還需要學識、表達等基礎,所以停留在文字層面的問答,本身就是一種門檻限制。

而語音帶來的一種可能性是,它正在開啟一個全新的階段——人機交互的「共情模式」。

如果把語音交互比作一個「UI 界面」,那這個界面會長什么樣?我們可以做個推演,它的構成要素可能會有:

情緒識別:AI 通過分析語調、音量、語速,判斷用戶的情感狀態。比如,你的聲音顫抖,AI 可能推測你在緊張或傷心。

意圖理解:不僅聽懂你說了什么,還要明白你想做什么。比如,你說「播放音樂」,AI 會根據你的情緒,決定是放搖滾還是古典。

聲紋識別:通過獨一無二的音聲波特征,區分不同用戶。比如,家里的智能音箱能自動切換到「孩子模式」模式,只為孩子的聲音提供安全的回應。

情緒生成:AI 的回應需要帶有情感化的表達。比如,用溫暖的語氣說「別擔心,我來幫你解決」,而不是機械的「好的,正在處理」。

這些要素的背后,是 AI 從「功能導向」到「情感導向」的轉變,AI 會與人實現共情。這種交互,能顯著提升長時間交互的質量和親密感。

不僅如此,從狹義的「Voice」拓展到廣義的「Sound」,當 AI 能接收到的不僅僅是用戶的指令,而是整個物理世界的實時反饋時,我們可以去構建一個「聲學世界模型」。

這個「聲學世界模型」可以理解聲音在物理世界中產生、傳播和交互的根本規律,它不僅要「聽清」和「聽懂」,更要具備「聲學常識」和「聲學推理」的能力:它能從一聲悶響中分辨出是書本落地還是箱子倒塌;能通過回聲判斷出房間的大小與空曠程度;更能理解「腳步聲由遠及近」背后所蘊含的物理運動邏輯。

未來,當這樣一個聲學世界模型與視覺、語言大模型深度融合時,具身智能機器人將不再「失聰」和冰冷。這也是我們正在做的。

相關標簽
主站蜘蛛池模板: 亚洲成a人片在线观看中文动漫| 大香伊人久久精品一区二区| 国产人妖ts视频在线观看| 五十路老熟道中出在线播放| 女人18毛片水真多国产| 欧美日韩综合网| 国产香蕉国产精品偷在线| 亚洲综合在线成人一区| 99久久国产综合精品麻豆| 激情综合色五月六月婷婷| 国色天香论坛视频高清在线| 亚洲深深色噜噜狠狠爱网站| 91久久香蕉国产线看| 欧美日韩国产三级| 国产精品久久久久9999高清| 亚洲人成人77777网站| 久久国产真实乱对白| 69成人免费视频| 波多野结衣中文丝袜字幕| 国内成人精品亚洲日本语音| 国产一卡二卡四卡免费| 中文字幕永久更新| 综合久久久久久中文字幕| 小说区乱图片区| 亚洲色图综合网站| 91香蕉国产线在线观看免费| 欧美日韩精品一区二区三区视频在线 | 欧美一区二区在线观看免费网站| 国产男女爽爽爽免费视频 | 激情五月亚洲色图| 国产精品毛多多水多| 五月婷婷丁香久久| 99re66热这里只有精品首页| 欧美日韩在线视频免费完整| 国产特级毛片aaaaaa高清| 久久国产欧美日韩精品| 美女和男生一起差差差| 大片毛片女女女女女女女| 国产成人午夜精品影院游乐网| 久久久久亚洲精品中文字幕| 黑人巨大精品大战白人美女|