國產(chǎn) Agent 進(jìn)入 "NL2SQL 全球最難榜單 " 前三。
7 月 4 日,據(jù)國際權(quán)威評測基準(zhǔn) BIRD-Bench 官網(wǎng)消息,騰訊云自研的數(shù)據(jù)分析智能體 TCDataAgent 斬獲全球第三的成績,超越 IBM、Meta 等眾多國際廠商,同時(shí)也是目前國內(nèi)在該榜單上排名最高的排名。
來源:BIRD-Bench 官網(wǎng)
BIRD-Bench 以其嚴(yán)苛性被譽(yù)為 "NL2SQL 全球最難榜單 "。它不僅要求系統(tǒng)將自然語言問題(如 " 找出未通過質(zhì)檢的訂單 ")準(zhǔn)確翻譯成 SQL 語句,更要求生成的 SQL 在真實(shí)、龐大且含 " 臟數(shù)據(jù) " 的企業(yè)級數(shù)據(jù)庫上執(zhí)行結(jié)果精準(zhǔn)且運(yùn)行高效,對模型的深層語義理解和數(shù)據(jù)庫真實(shí)內(nèi)容感知能力提出了極高挑戰(zhàn)。
在這個(gè)以真實(shí)業(yè)務(wù)數(shù)據(jù)庫為基礎(chǔ)的測試中,覆蓋金融、醫(yī)療、體育等 37 個(gè)行業(yè)場景,數(shù)據(jù)庫總?cè)萘窟_(dá) 33GB,查詢問題超過 1 萬條。TCDataAgent 在官方不公開數(shù)據(jù)集的封閉測試環(huán)境下,最終獲得了 75.74 分,位居全球第三, 國內(nèi)第一。
相比于傳統(tǒng) NL2SQL 方案往往只能依賴有限信息 " 猜測 " 用戶意圖,易因數(shù)據(jù)結(jié)構(gòu)復(fù)雜或語義模糊出錯(cuò)。TCDataAgent 登榜的技術(shù)創(chuàng)新來源于引入了數(shù)據(jù)庫約束驗(yàn)證機(jī)制,能夠自動(dòng)識別并修正 SQL 中潛在的結(jié)構(gòu)性或語義性錯(cuò)誤(如錯(cuò)誤連接、冗余條件)。
更重要的是,它緊密結(jié)合數(shù)據(jù)庫的真實(shí)內(nèi)容對生成的 SQL 進(jìn)行優(yōu)化,顯著提升了用戶意圖識別的準(zhǔn)確率和翻譯結(jié)果的可靠性。值得一提的是,TCDataAgent 還引入了后訓(xùn)練(post-training)技術(shù),通過優(yōu)先篩選并復(fù)用效果最優(yōu)的 SQL 樣本進(jìn)行模型迭代訓(xùn)練,有效提升了訓(xùn)練樣本的質(zhì)量和模型學(xué)習(xí)的穩(wěn)定性。
騰訊云 TCDataAgent 在 NL2SQL 領(lǐng)域的技術(shù)研究成果也獲得了國際學(xué)術(shù)界的認(rèn)可,相關(guān)論文已被今年的數(shù)據(jù)庫領(lǐng)域頂級國際會(huì)議 VLDB 接收。論文中的實(shí)驗(yàn)表明,TCDataAgent 的 " 數(shù)據(jù)庫內(nèi)容感知 " 核心技術(shù)模塊,可以無縫集成到其他 NL2SQL 系統(tǒng)中,最高能將查詢執(zhí)行準(zhǔn)確率提升 18.3%,并在多個(gè)主流方法上實(shí)現(xiàn)了超過 5% 的性能提升。
作為騰訊云新一代企業(yè)級智能分析 Agent,TCDataAgent 致力于讓用戶直接使用自然語言對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)據(jù)查詢、報(bào)表生成和趨勢分析等任務(wù),目前已開啟內(nèi)測。