達摩院AliceMind上新!首個中文表格預訓練模型來了,已向業(yè)界開源
12月2日,達摩院深度語言模型體系AliceMind發(fā)布中文社區(qū)首個表格預訓練模型SDCUP,該模型在全球權威表格數(shù)據(jù)集WikiSQL、SQuALL上取得了業(yè)界最優(yōu)效果,且模型和訓練代碼均已對外開源。
表格是應用普遍的結構化數(shù)據(jù),也是智能對話系統(tǒng)和搜索引擎的重要答案來源。但傳統(tǒng)表格查詢需技術人員撰寫專業(yè)查詢語句,阻礙了表格查詢的大規(guī)模應用。新興的表格問答技術,可將自然語言轉換為查詢語句,使用戶能通過簡單問句直接與表格數(shù)據(jù)庫交互,具有廣泛應用前景。
不過,由于表格內(nèi)容復雜多樣、涉及各行業(yè)專業(yè)知識,表格問答任務一直是自然語言處理領域的難題。此前,谷歌、微軟、亞馬遜等海外公司開展了相關探索,但在中文場景,該方向處于空白。
本次,達摩院對話智能團隊提出了首個中文表格預訓練模型SDCUP,其基于“模式依存”方法,通過模型直接預測自然語言與表格結構內(nèi)容的關鍵詞映射,提升了表格問答的準確率。具體而言,即參考語義依存分析方法對Schema Dependency任務建模,使用全連接網(wǎng)絡獲取每個節(jié)點作為父親節(jié)點和作為孩子節(jié)點的語義表示,然后使用雙仿射網(wǎng)絡預測每個邊存在的概率和該邊關系類型的概率。同時,團隊使用了模仿人類的“課程學習”方法減少數(shù)據(jù)噪聲。
(SDCUP生成SQL示例)
在耶魯大學發(fā)布的業(yè)界最大規(guī)模的英文文本-表格數(shù)據(jù)集WikiSQL,以及微軟構建的英文文本-表格高難度預測任務SQuALL數(shù)據(jù)集上,SDCUP模型均取得業(yè)界最優(yōu)效果。在達摩院構建的表格問答中文數(shù)據(jù)集TaBLUE上,SDCUP比同參數(shù)規(guī)模BERT模型效果提升約3個百分點。
(SDCUP在WikiSQL數(shù)據(jù)集上取得業(yè)界最優(yōu)效果)
(SDCUP在SQuALL數(shù)據(jù)集上取得業(yè)界最優(yōu)效果)
達摩院資深算法專家李永彬介紹,SDCUP模型是達摩院表格對話技術系列研發(fā)的一部分,后續(xù)將持續(xù)對外開源。其相關技術先后在四大國際公開數(shù)據(jù)集WikiSQL、Spider、SParC、CoSQL上取得第一。
據(jù)了解,該技術完成了產(chǎn)品化,已通過阿里云智能客服為政務、金融、零售等行業(yè)客戶提供表格問答和數(shù)據(jù)庫自然交互服務。





