阿里「殺手锏」級語音識別模型來了!推理效率較傳統(tǒng)模型提升10倍 |
發(fā)布時間:2023-01-17 文章來源:本站 瀏覽次數(shù):2058 |
阿里達摩院,又搞事兒了。 這兩天,它們發(fā)布了一個全新的語音辨認模型: Paraformer。 開發(fā)人員直抒己見:這是咱們“殺手锏”級的作品。 ——不只辨認精確率“屠榜”幾大威望數(shù)據(jù)集,一路SOTA,推理功率上比較傳統(tǒng)模型,也高可提高10倍。 值得一提的是,Paraformer剛宣布就現(xiàn)已開源了。 語音輸入法、智能客服、車載導航、會議紀要等場景,它都能夠hold住。 怎么做到的? Paraformer:從自回歸到非自回歸咱們知道語音一直是人機交互重要研究領域。 而當時語音辨認根底結構已從初雜亂的混合語音辨認系統(tǒng),演變?yōu)楦咝П憬莸亩说蕉苏Z音辨認系統(tǒng)。 其中具代表性的模型當屬自回歸端到端模型Transformer,它能夠在辨認過程中需逐一生成方針文字,實現(xiàn)了較高精確率。 不過Transformer核算并行度低,無法高效結合GPU進行推理。 針對該問題,學術界近年曾提出并行輸出方針文字的非自回歸模型。 可是這種模型也存在著建模難度和核算雜亂度高,精確率有待提高的問題。 達摩院本次推出的Paraformer,初次在工業(yè)級運用層面解決了端到端辨認作用與功率統(tǒng)籌的難題。 它歸于單輪非自回歸模型。 對于這一類模型,現(xiàn)有作業(yè)往往聚焦于如何愈加精確地猜測方針文字個數(shù),如較為典型的Mask CTC,選用CTC猜測輸出文字個數(shù)。 但考慮到現(xiàn)實運用中,語速、口音、靜音以及噪聲等因素的影響,如何精確的猜測方針文字個數(shù)以及抽取方針文字對應的聲學隱變量仍然是一個比較大的應戰(zhàn)。 另外一方面,經(jīng)過比照自回歸模型與單輪非自回歸模型在工業(yè)大數(shù)據(jù)上的過錯類型(如下圖所示,AR與vanilla NAR),我們發(fā)現(xiàn)比較于自回歸模型,非自回歸模型在猜測方針文字個數(shù)(插入過錯+刪除過錯)方面差距較小,可是替換過錯顯著的添加。 阿里達摩院以為這是因為單輪非自回歸模型中條件獨立假設導致的語義信息丟掉。與此一起,現(xiàn)在非自回歸模型主要停留在學術驗證階段,還沒有工業(yè)大數(shù)據(jù)上的相關實驗與定論。 Paraformer是如何做的呢? 針對第一個問題,阿里達摩院選用一個猜測器(Predictor)來猜測文字個數(shù)并經(jīng)過Continuous integrate-and-fire (CIF)機制來抽取文字對應的聲學隱變量。 針對第二個問題,受啟發(fā)于機器翻譯領域中的Glancing language model(GLM),他們規(guī)劃了一個根據(jù)GLM的 Sampler模塊來增強模型對上下文語義的建模。 除此之外,團隊還規(guī)劃了一種生成負樣本策略來引進MWER區(qū)分性練習。 終究,Paraformer由Encoder、Predictor、Sampler、Decoder與Loss function五部分組成。 核心點主要包含以下幾點:
作用SOTA,推理功率高提10倍終究,在學術界常用的中文辨認評測使命AISHELL-1、AISHELL-2及WenetSpeech等測驗集上, Paraformer-large模型均獲得了優(yōu)作用。 在AISHELL-1上,Paraformer在現(xiàn)在揭露宣布論文中,為功能(辨認作用&核算雜亂度)優(yōu)的非自回歸模型,且Paraformer-large模型的辨認精確率遠遠超于現(xiàn)在揭露宣布論文中的結果(dev/test:1.75/1.95)。 在專業(yè)的第三方全網(wǎng)公共云中文語音辨認評測SpeechIO TIOBE白盒測驗中,Paraformer-large辨認精確率超越98%,是現(xiàn)在揭露測評中精確率高的中文語音辨認模型。 合作GPU推理,不同版本的Paraformer可將推理功率提高5~10倍。 一起,Paraformer運用了6倍下采樣的低幀率建模計劃,可將核算量下降近6倍,支持大模型的高效推理。 終的終,歡迎各位開發(fā)者下載Paraformer并留言反應模型運用感受~ 量子位將贈送3張阿里研發(fā)的會議紀要產(chǎn)品“聽悟”特邀用戶年度權益卡,每天可運用離線語音/視頻轉寫10小時+實時轉寫8小時,高價值超萬元! |
|