123,123,123

智能手機(jī)的超性能語(yǔ)音識(shí)別技術(shù)

發(fā)布時(shí)間：2011-12-20

中心議題：

學(xué)習(xí)智能手機(jī)的超性能語(yǔ)音識(shí)別技術(shù)

手機(jī)提供的羅盤(pán)或者GPS能夠增強(qiáng)自然語(yǔ)言處理的有用性

解決方案：

在移動(dòng)設(shè)備方面設(shè)計(jì)

硬件和軟件技術(shù)

當(dāng)語(yǔ)音識(shí)別技術(shù)應(yīng)用到計(jì)算機(jī)桌面的時(shí)候，這看起來(lái)似乎是一個(gè)好主意。但是，對(duì)于大多數(shù)人來(lái)說(shuō)，語(yǔ)音識(shí)別還不能取代鍵盤(pán)和鼠標(biāo)。現(xiàn)在，語(yǔ)音技術(shù)正用于一個(gè)全新的環(huán)境：手機(jī)。語(yǔ)音識(shí)別技術(shù)在手機(jī)中的應(yīng)用將進(jìn)一步推動(dòng)這種技術(shù)向新的方向發(fā)展和應(yīng)用。這是語(yǔ)音識(shí)別技術(shù)在臺(tái)式電腦應(yīng)用中從來(lái)沒(méi)有涉足的方向。

IBM今年將紀(jì)念其創(chuàng)建100周年。IBM在60年代初期創(chuàng)建了一個(gè)名為“Shoebox”的試驗(yàn)性的語(yǔ)音識(shí)別系統(tǒng)。這個(gè)系統(tǒng)解決了口語(yǔ)算法問(wèn)題。語(yǔ)音識(shí)別技術(shù)是在50年代作為一項(xiàng)早期的技術(shù)第一次出現(xiàn)的，當(dāng)時(shí)主要是由于好奇。在60年代初，IBM的“Shoebox”設(shè)備能夠識(shí)別出16個(gè)口語(yǔ)單詞并且能夠回答簡(jiǎn)單的數(shù)學(xué)問(wèn)題，如“3 + 4 =?”。

Dragon Systems在80年代初為DOS計(jì)算機(jī)推出的DragonDictate可能是第一個(gè)語(yǔ)音識(shí)別應(yīng)用程序。這個(gè)應(yīng)用程序只能識(shí)別單個(gè)單詞，每次只說(shuō)一個(gè)單詞。隨著時(shí)間的推移，這個(gè)應(yīng)用程序已經(jīng)發(fā)展成為名為“Dragon NaturallySpeaking”(目前是第11個(gè)版本，由Nuance通訊公司所有)的產(chǎn)品。這個(gè)應(yīng)用程序能夠翻譯以正常的會(huì)話語(yǔ)音和速度讀出的文本。

語(yǔ)音識(shí)別技術(shù)在臺(tái)式電腦中的應(yīng)用有兩個(gè)制約因素。第一，為了使這個(gè)應(yīng)用程序以更高的準(zhǔn)確性工作，這個(gè)應(yīng)用程序必須要進(jìn)行訓(xùn)練以便識(shí)別用戶的語(yǔ)音特征。Windows Vista和Windows 7操作系統(tǒng)中的本地語(yǔ)音轉(zhuǎn)換文本技術(shù)和Dragon NaturallySpeaking等第三方產(chǎn)品仍然都需要一個(gè)用戶訓(xùn)練期才能使用。

第二個(gè)制約因素是鍵盤(pán)的流行程度。大多數(shù)人已經(jīng)習(xí)慣于鍵盤(pán)打字而不是講話，因此，語(yǔ)音控制面臨Dvorak鍵盤(pán)布局同樣的應(yīng)用障礙。當(dāng)簡(jiǎn)單的老式QWERTY鍵盤(pán)供貨充足并且工作的很好的時(shí)候，為什么要學(xué)習(xí)使用Dvorak鍵盤(pán)呢?

微軟TellMe團(tuán)隊(duì)是負(fù)責(zé)為多媒體環(huán)境開(kāi)發(fā)語(yǔ)音識(shí)別技術(shù)的部門(mén)。TellMe團(tuán)隊(duì)高級(jí)產(chǎn)品經(jīng)理Abhi Rele指出，在臺(tái)式電腦環(huán)境，用戶有方便的人機(jī)交流模式，如鍵盤(pán)和鼠標(biāo)。因此，語(yǔ)音的使用主要是針對(duì)語(yǔ)音愛(ài)好者的。

語(yǔ)音控制的計(jì)算更廣泛的應(yīng)用需要兩件事情：更好的方便的應(yīng)用和主要使用語(yǔ)音的地方。手機(jī)正是很長(zhǎng)時(shí)間以來(lái)一直在增長(zhǎng)的這種地方。

Nuance負(fù)責(zé)產(chǎn)品管理和營(yíng)銷(xiāo)的副總裁Matt Revis解釋說(shuō)，臺(tái)式電腦和移動(dòng)環(huán)境的區(qū)別是這樣的：臺(tái)式電腦是一個(gè)固定的環(huán)境，重點(diǎn)完全在于臺(tái)式電腦的使用情況。因此，臺(tái)式電腦的語(yǔ)音技術(shù)主要執(zhí)行如下任務(wù)：支持辦公應(yīng)用程序、網(wǎng)絡(luò)瀏覽、通訊等。在移動(dòng)方面，語(yǔ)音更多地用于支持各種生活方式方面：移動(dòng)中的專業(yè)人員、戶外的有趣活動(dòng)、免提電話等等。

Gartner分析師Tuong Nguyen贊同這個(gè)觀點(diǎn)：語(yǔ)音在移動(dòng)環(huán)境中更有意義。他說(shuō)，從使用的角度看，掌上設(shè)備的語(yǔ)音識(shí)別功能價(jià)值更大。它增加了用戶友好的、方便的輸入方式。

Nguyen補(bǔ)充說(shuō)，如果不用語(yǔ)音技術(shù)說(shuō)出一個(gè)簡(jiǎn)單的說(shuō)明語(yǔ)句，而是翻動(dòng)許多菜單或者努力地在小顯示屏鍵盤(pán)上進(jìn)行輸入，語(yǔ)音識(shí)別的價(jià)值就顯現(xiàn)出來(lái)了。隨著觸摸屏設(shè)備(沒(méi)有物理鍵盤(pán))應(yīng)用的增長(zhǎng)，語(yǔ)音識(shí)別技術(shù)將用來(lái)增強(qiáng)數(shù)據(jù)輸入和輸出。語(yǔ)音識(shí)別還支持免提要求或者法律要求。
[page]
在移動(dòng)設(shè)備方面

因?yàn)橐苿?dòng)設(shè)備一般僅支持臺(tái)式電腦的一部分存儲(chǔ)和處理功能，語(yǔ)音處理需要一些時(shí)間才能以基本的形式出現(xiàn)在手機(jī)中。

語(yǔ)音處理Springer手冊(cè)解釋了手機(jī)在2000年代初的情況。盡管那時(shí)還有一些局限性，但是，手機(jī)經(jīng)過(guò)編程之后能夠識(shí)別逐個(gè)數(shù)字的撥號(hào)語(yǔ)音，在某種程度上還能識(shí)別人的名字。主要問(wèn)題是內(nèi)存，因此，大多數(shù)手機(jī)一次只能識(shí)別10個(gè)數(shù)字或者名字。但是，這些作者指出的另一個(gè)問(wèn)題是這個(gè)功能使用的比較少，可能是因?yàn)槭謾C(jī)廠商在這方面的營(yíng)銷(xiāo)很糟糕。

隨著手機(jī)的增加內(nèi)存和增強(qiáng)處理能力，普通手機(jī)的識(shí)別能力也增強(qiáng)了。三星電子在2005年發(fā)布的售價(jià)99美元的SCH-p-207型手機(jī)增加了語(yǔ)音至文本的聽(tīng)寫(xiě)功能和語(yǔ)音撥號(hào)功能。隨著內(nèi)存達(dá)到數(shù)百M(fèi)B和存儲(chǔ)容量達(dá)到數(shù)GB，目前這一代智能手機(jī)很少受到限制。

另一個(gè)關(guān)鍵的進(jìn)步是網(wǎng)絡(luò)速度。速度更快的無(wú)線網(wǎng)絡(luò)浪潮抬高了許多大船，包括最新一代的語(yǔ)音處理技術(shù)。速度更快的網(wǎng)絡(luò)能夠把語(yǔ)音處理任務(wù)從網(wǎng)絡(luò)遷移到遠(yuǎn)程服務(wù)器。

谷歌語(yǔ)音搜索產(chǎn)品經(jīng)理Amir Mane解釋了速度更快的網(wǎng)絡(luò)是如何幫助谷歌語(yǔ)音應(yīng)用程序的。他說(shuō)，由于所有繁重的處理任務(wù)都是由谷歌服務(wù)器在網(wǎng)絡(luò)上處理的，我們減少了掌上設(shè)備計(jì)算能力的限制。

目前的應(yīng)用程序

手機(jī)語(yǔ)音識(shí)別技術(shù)目前的狀態(tài)不僅僅局限于語(yǔ)音撥號(hào)。語(yǔ)音啟動(dòng)的功能實(shí)際上就包括語(yǔ)音撥號(hào)。這是手機(jī)上出現(xiàn)的第一個(gè)語(yǔ)音識(shí)別功能。目前，甚至許多低端手機(jī)都有這個(gè)功能，盡管這個(gè)功能處理手機(jī)電話簿中一些不常用的名字的時(shí)稍差一些。

Gartner分析師Nguyen指出，比較新的一代語(yǔ)音功能是更開(kāi)放的。不用編程執(zhí)行某些功能的具體的語(yǔ)音指令，應(yīng)用程序可識(shí)別語(yǔ)音并且執(zhí)行適當(dāng)?shù)男袆?dòng)。更高端的、更強(qiáng)大的設(shè)備使這些應(yīng)用更可行。換句話說(shuō)，不僅僅是能夠使用這個(gè)短語(yǔ)“呼叫888-555-1212”撥打一個(gè)電話號(hào)碼，用戶還可以說(shuō)“呼叫媽媽”或者“給我媽媽打電話”。

谷歌語(yǔ)音搜索擁有比以前的語(yǔ)音識(shí)別技術(shù)更少的限制，因?yàn)樗械姆敝厝蝿?wù)都是由網(wǎng)絡(luò)服務(wù)器完成的。這使谷歌語(yǔ)音搜索等語(yǔ)音驅(qū)動(dòng)的應(yīng)用程序更可行。例如，如果你說(shuō)“創(chuàng)戰(zhàn)紀(jì)電影時(shí)間”，你會(huì)看到一個(gè)網(wǎng)頁(yè)列出地區(qū)編號(hào)或者位置。這個(gè)應(yīng)用程序不僅能夠識(shí)別出這個(gè)短語(yǔ)的意思，而且還能提供你的手機(jī)(你當(dāng)前的位置)和網(wǎng)站(上映時(shí)間)的信息。

這個(gè)應(yīng)用程序還非常熟悉英語(yǔ)，不用進(jìn)行訓(xùn)練就能自動(dòng)分辨出一些詞匯的差別。如果我說(shuō)“摩特里褲(Motley Crue)樂(lè)隊(duì)”，這個(gè)應(yīng)用程序甚至能在搜索詞匯方便使用這個(gè)樂(lè)隊(duì)的獨(dú)特的拼寫(xiě)，盡管它會(huì)漏掉變音符號(hào)。搜索“Motley''''s Crew”，你會(huì)得到一個(gè)喜劇片。

這就是說(shuō)谷歌語(yǔ)音識(shí)別的限制明顯地表明將使你進(jìn)一步脫離主流的英語(yǔ)。外國(guó)人的名字是沒(méi)有幫助的。語(yǔ)音識(shí)別應(yīng)用程序的另一個(gè)問(wèn)題是環(huán)境的噪音。移動(dòng)用戶受環(huán)境噪音的影響通常比臺(tái)式電腦用戶多。Nuance公司的Revis稱，在充滿噪音的戶外環(huán)境中，語(yǔ)音識(shí)別的準(zhǔn)確性是一個(gè)問(wèn)題。

自從2005年三星的那款手機(jī)推出以來(lái)，聽(tīng)寫(xiě)功能已經(jīng)取得了長(zhǎng)足的進(jìn)步。由Dragon NaturallySpeaking驅(qū)動(dòng)的iPhone的Dragon聽(tīng)寫(xiě)功能允許用戶聽(tīng)寫(xiě)從備忘錄、電子郵件到Twitter更新等一切內(nèi)容。用于電子郵件的Dragon軟件為黑莓設(shè)備提供了類似的功能。

對(duì)于Android手機(jī)來(lái)說(shuō)，Nuance提供了FlexT9軟件。這個(gè)軟件把Dragon聽(tīng)寫(xiě)功能與三種類型的觸摸屏輸入方式結(jié)合在了一起。還有一個(gè)Handcent短信應(yīng)用程序。這個(gè)應(yīng)用程序集成了Android本地語(yǔ)音識(shí)別技術(shù)以幫助你用語(yǔ)音發(fā)短信。

文本之間的翻譯目前已經(jīng)推出多年(如通過(guò)知名的Babel Fish網(wǎng)站進(jìn)行翻譯)。同聲翻譯功能現(xiàn)在還沒(méi)有，不過(guò)，這種軟件很快會(huì)推出。例如，用于iPhone的Jibbigo軟件可翻譯單詞、短語(yǔ)和合理的簡(jiǎn)單句子，讓雙方交替地講話。
[page]
未來(lái)的方向

詢問(wèn)參加開(kāi)發(fā)語(yǔ)音技術(shù)的每一個(gè)人下一個(gè)巨大的步驟是什么。他們一般會(huì)給你一個(gè)答案：自然語(yǔ)言處理。

Revis把它解釋為理解你的意思的系統(tǒng)，它不僅僅知道你說(shuō)什么。在會(huì)話式的互動(dòng)模式中，用戶說(shuō)自己要說(shuō)的話，沒(méi)有限制用戶如何說(shuō)這個(gè)話。他提供了指令或者要求得到信息的例子，如“我在什么地方能夠買(mǎi)到100美元以下的尼康照相機(jī)?”或者“給杰尼發(fā)個(gè)短信說(shuō)我晚到20分鐘”或者“今天晚上在Morton''''s訂三個(gè)人的地方”。

谷歌的Mane稱，在口語(yǔ)對(duì)話中提供自然的語(yǔ)言處理是一個(gè)雙重挑戰(zhàn)。首先，你必須識(shí)別這些單詞，然后，你必須理解這個(gè)意思。第一部分變得更加容易了。但是，第二部分仍然很難解決：意思是根據(jù)上下文確定的和難以應(yīng)付的，人類做的語(yǔ)法分析也不是總是成功的。

微軟的Rele認(rèn)為，手機(jī)提供的額外的服務(wù)(如羅盤(pán)或者GPS)能夠增強(qiáng)自然語(yǔ)言處理的有用性。他說(shuō)，你可以為兩個(gè)人安排吃飯和看電影，方法是利用不同來(lái)源的數(shù)據(jù)把這個(gè)任務(wù)分開(kāi)，如使用日歷、飯店排名、電影評(píng)論和位置等數(shù)據(jù)。

此外，手機(jī)的服務(wù)能夠用于提供講話的環(huán)境。Rele表示，用戶的語(yǔ)音輸入以及從其它有關(guān)用戶及用戶環(huán)境的傳感器和狀態(tài)獲得的智能信息可以提供更豐富的和更相關(guān)的結(jié)果。例如，如果你剛剛使用Foursquare網(wǎng)站查看有關(guān)飯店，一些含糊的語(yǔ)音指令就會(huì)傾向于外出吃飯、訂膳宿和要一輛出租車(chē)等事情。

多平臺(tái)應(yīng)用程序Vlingo自稱是“虛擬助手”，已經(jīng)能夠提供這些方面的功能。這個(gè)軟件插入到OpenTable和Fandango等服務(wù)中以完成許多任務(wù)：訂飯店、訂電影票等等。

Nguyen認(rèn)為未來(lái)語(yǔ)音識(shí)別技術(shù)改善的另一個(gè)領(lǐng)域是游戲。他說(shuō)，在游戲中可以使用語(yǔ)音以增加玩游戲的不同氛圍。例如，你可以把Kirk-style船長(zhǎng)的命令傳遞給恒星飛船或者在在一個(gè)神秘的事情中審訊疑犯。
是你嗎?已經(jīng)應(yīng)用的另一個(gè)功能是自動(dòng)地把語(yǔ)音識(shí)別適用于單個(gè)用戶。這是臺(tái)式電腦語(yǔ)音識(shí)別技術(shù)所要求的免提版語(yǔ)音訓(xùn)練。

例如，最新版本的谷歌語(yǔ)音搜索有一個(gè)選擇性加入功能，允許隨著時(shí)間的推移建立一個(gè)用戶的客戶化語(yǔ)音特征。Mane解釋說(shuō)，當(dāng)用戶選擇使用客戶化語(yǔ)音識(shí)別的時(shí)候，我們?cè)谟脩艉陀脩舻恼Z(yǔ)調(diào)方面畫(huà)一個(gè)界限，這使我們能夠建立一個(gè)初步的、個(gè)性化的語(yǔ)音識(shí)別模式。

然而，個(gè)性化識(shí)別并不是一個(gè)能夠解決一切問(wèn)題的技術(shù)，它只是實(shí)現(xiàn)語(yǔ)音識(shí)別更加無(wú)縫化的一個(gè)過(guò)渡步驟。Mane稱，我們沒(méi)有把個(gè)性化識(shí)別看作一個(gè)唯一的解決方案，因?yàn)檫€會(huì)有更多的一系列的技術(shù)創(chuàng)新。Mane認(rèn)為，這種技術(shù)未來(lái)的改進(jìn)需要我們的用戶更積極的參與。

結(jié)論

手機(jī)一直是許多技術(shù)的孵化器和推動(dòng)因素，這包括硬件和軟件技術(shù)。到目前為止，在這個(gè)組合中增加語(yǔ)音功能僅產(chǎn)生了逐步的改善，谷歌語(yǔ)音應(yīng)用程序的很好的功能。

但是，這些改進(jìn)正逐步地為更重要的進(jìn)步鋪平道路。移動(dòng)技術(shù)為如何聚集這些新技術(shù)提供了一個(gè)全新的舞臺(tái)。下一步也許不是一個(gè)理解你說(shuō)的一切事情的手機(jī)，而是能夠充分理解你說(shuō)的事情的一個(gè)更有用的手機(jī)。

要采購(gòu)鍵盤(pán)么，點(diǎn)這里了解一下價(jià)格!

上一篇：K70系列：飛思卡爾推出單芯片圖形LCD Kinetis微控制器系列

下一篇：NTSxxx100CTG：安森美100伏溝槽型低正向壓降肖特基整流器

特別推薦

噪聲中提取真值！瑞盟科技推出MSA2240電流檢測(cè)芯片賦能多元高端測(cè)量場(chǎng)景
10MHz高頻運(yùn)行！氮矽科技發(fā)布集成驅(qū)動(dòng)GaN芯片，助力電源能效再攀新高
失真度僅0.002%！力芯微推出超低內(nèi)阻、超低失真4PST模擬開(kāi)關(guān)
一“芯”雙電！圣邦微電子發(fā)布雙輸出電源芯片，簡(jiǎn)化AFE與音頻設(shè)計(jì)
一機(jī)適配萬(wàn)端：金升陽(yáng)推出1200W可編程電源，賦能高端裝備制造

技術(shù)文章更多>>

技術(shù)白皮書(shū)下載更多>>

智能手機(jī)的超性能語(yǔ)音識(shí)別技術(shù)

友情鏈接(QQ：317243736)