谷歌近日為Gboard帶來了最新的AI語音識別功能,該功能使用RNN傳感器(RNN-T)技術(shù),大大提高了Gboard語音識別的速度和準(zhǔn)確度。
之前的語音輸入一直使用的是基于云的語言處理方式,也就是當(dāng)我們點擊麥克風(fēng)圖標(biāo)時,我們錄制的語音先會被發(fā)送至云端服務(wù)器,然后將語音轉(zhuǎn)換為文本后發(fā)回至手機。而且該語言識別模型大小約2GB,非常占用手機內(nèi)存。
據(jù)悉,谷歌團隊花了五年時間來研究這一問題,尋找可以將流程縮小到可以在本地執(zhí)行的方法,通過不斷壓縮語音識別模型大小,新版本僅占80M,并且還支持離線工作。改進(jìn)的Gboard采用字符級語言模型,轉(zhuǎn)錄文本時將逐字逐句顯示,而不是像之前一樣逐個顯示整個單詞。
目前,Gboard的這次更新僅支持Pixel手機,而且只能識別美式英語。
此外,有谷歌研究員表示,Gboard的這項語音識別新技術(shù)未來可能會支持更多手機,并拓展更多語言。



