7月4日消息,騰訊根據(jù)自然語言轉(zhuǎn)SQL(NL2SQL)國際評測平臺(tái)BIRD-Bench公布的云自研數(shù)最新結(jié)果:騰訊云自研數(shù)據(jù)分析智能體TCDataAgent獲得全球第三、國內(nèi)第一,據(jù)分刷新了國內(nèi)在該領(lǐng)域的析智最佳成績,超越眾多國際科技巨頭。體內(nèi)第
BIRD-Bench被譽(yù)為NL2SQL全球最難榜單,全球它不僅要求系統(tǒng)將自然語言問題準(zhǔn)確翻譯成SQL語句,第國還要確保生成的騰訊SQL在超大、超真實(shí)、云自研數(shù)藏著各種的據(jù)分企業(yè)級數(shù)據(jù)庫里,又快又準(zhǔn)地跑出來。析智
測評用的體內(nèi)第樣本,涵蓋了金融、全球醫(yī)療、第國體育等37個(gè)真實(shí)行業(yè)場景,騰訊總數(shù)據(jù)量達(dá)到33GB,考題多達(dá)1萬+條。
但就是在這樣嚴(yán)苛的條件下,騰訊云TCDataAgent依然取得了75.74分的高分。
據(jù)介紹,傳統(tǒng)方法容易在復(fù)雜結(jié)構(gòu)或語義模糊時(shí)猜錯(cuò)用戶意圖,TCDataAgent則在三大方向取得突破:
錯(cuò)誤自動(dòng)識(shí)別與修正:引入數(shù)據(jù)庫約束驗(yàn)證機(jī)制,能夠像質(zhì)檢員一樣自動(dòng)發(fā)現(xiàn)并修復(fù)SQL語句中的結(jié)構(gòu)性或語義性錯(cuò)誤;
理解數(shù)據(jù)庫內(nèi)容:讓模型緊密結(jié)合數(shù)據(jù)庫的真實(shí)內(nèi)容來生成和優(yōu)化SQL,極大提升了意圖理解和結(jié)果的可信度;
高質(zhì)量訓(xùn)練篩選:通過后訓(xùn)練(post-training)技術(shù),優(yōu)先篩選并復(fù)用效果最優(yōu)的SQL樣本進(jìn)行訓(xùn)練迭代。
這項(xiàng)技術(shù)的創(chuàng)新成果,也被數(shù)據(jù)庫領(lǐng)域頂尖國際會(huì)議VLDB接收發(fā)表,論文中的實(shí)驗(yàn)顯示,TCDataAgent的核心模塊可以集成到其他同類系統(tǒng)中,能將查詢執(zhí)行準(zhǔn)確率最高提升18.3%。
本文來源:http://www.iv82.cn/news/83e38099536.html
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容,請發(fā)送郵件舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。