從鍵盤打字到觸控屏,再到現(xiàn)在的語音交互和手勢交互, 人工智能技能
的開展,正在促進人機交互方法向愈加多元化方向革新。而今日,國內(nèi)聞名互聯(lián)網(wǎng)公司搜狗又推出了一種人機交互新技能——唇語辨認,這也是業(yè)界首個揭露演示的唇語辨認體系,經(jīng)過機器視覺辨認,不必聽聲響,僅靠辨認說話人唇部動作,就能解讀說話者所說的內(nèi)容。
與語音辨認不同,唇語辨認是一項基于機器視覺與自然語言處理于一體的技能,因此在研發(fā)難度上比語音辨認大得多。據(jù)悉,搜狗首創(chuàng)了雜亂端到端深度神經(jīng)網(wǎng)絡(luò)技能進行中文唇語序列建模,經(jīng)過數(shù)千小時的實在唇語數(shù)據(jù)練習,別的得益于搜狗在自然語言處理方面的強大優(yōu)勢,最終取得了業(yè)界搶先的唇語辨認作用。在非特定人敞開白話測驗集上,搜狗唇語辨認體系現(xiàn)已到達60%以上的準確率,超越google發(fā)布的英文唇語體系50%以上的準確率,在垂直場景如車載、
智能家居
等場景下乃至現(xiàn)已到達90%的準確率。在剛完畢不久的烏鎮(zhèn)國際互聯(lián)網(wǎng)大會上,搜狗唇語辨認技能露臉,在業(yè)界大大都唇語辨認技能實用性尚待考證的環(huán)境下,成功完成了業(yè)界首個中文唇語辨認體系的揭露演示,引起廣泛重視。
當國內(nèi)大部分企業(yè)都扎堆集合在智能語音、圖像辨認等范疇時,搜狗唇語辨認技能的推出無疑將引領(lǐng)整個職業(yè)進入一個全新的開展方向。作為人機交互的形式之一,未來唇語辨認技能能夠輔助語音交互及圖像辨認,在日常日子、安防、公益等各個范疇完成廣泛應(yīng)用。比如在車載場景下,周圍噪音過大時會對語音指令產(chǎn)生攪擾,經(jīng)過唇語辨認技能則能夠規(guī)避攪擾,確保人車交互的準確性和穩(wěn)定性,日常不方便發(fā)聲的公共場所也能夠確保說話內(nèi)容的私密性;在安防范疇,因為現(xiàn)在大都監(jiān)控只要攝像頭沒有麥克風,往往只能看清嘴型卻不知道在說什么,給案情剖析帶來很多難題,而唇語辨認技能能夠協(xié)助公安人員獲取重要的說話信息,為公共安全供給有用支撐。除此之外,唇語辨認技能還能發(fā)揮巨大的公益價值,協(xié)助先天性聽障人群或老年人,讓他們更好地了解和表達自己。
作為一家技能驅(qū)動型的企業(yè),近年來搜狗一向致力于自然語言的研討,現(xiàn)在在語音辨認、語義了解、機器翻譯等方面均取得了職業(yè)搶先的成果并完成產(chǎn)品落地,此次推出唇語辨認技能,不只會推進整個AI職業(yè)的技能革新,也意味著搜狗在AI范疇的技能實力到達了更高的開展水平。
時至今日,
人工智能
的開展速度現(xiàn)已徹底超出了我們的想象,那些電影里的炫酷黑科技正在一步步成為實際出現(xiàn)在我們的日子中。跟著AI技能的開展,信任在不遠的將來,唇語辨認也能像語音辨認、圖像辨認一樣成為我們?nèi)兆又须S處可見的一部分。
|