cf电竞梦

歡迎光臨鄭州圖靈機器人股份有限公司官方網站!

您現在的位置:首頁機器人研究院前沿課題 > 國內外語音識別行業最全盤點及技術分析和預測

國內外語音識別行業最全盤點及技術分析和預測

瀏覽次數: 日期:2016年9月7日 16:48

隨著機器學習和人工智能的熱鬧,國內語音行業也可謂是百花齊放,尤其是最近幾年,不僅涌現了很多國內外的小公司,而且巨頭們也開始加速語音識別行業的布局。本文就詳細盤點一番國內外的大型公司,并對他們掌握的技術進行分析,同時預測一下未來的語音識別趨勢,期望帶給行業內外的專業人士些許參考,借此更進一步推進整個行業的發展。

\

國外語音識別行業收購盤點和技術分析

傳統語音識別行業貴族Nuance逐漸沒落

任何時候提到語音識別,都不能避過Nuance這家公司,這家公司曾經在語音領域一統江湖,世界上有超過80%的語音識別都用過Nuance識別引擎技術,其語音產品可以支持超過50種語言,在全球擁有超過20億用戶,幾乎壟斷了金融和電信行業。就算現在,仍舊是瘦死的駱駝比馬大,Nuance依舊是全球最大的語音技術公司,掌握著全球最多的語音技術專利。蘋果語音助手Siri、三星語音助手S-Voice、各大航空公司和頂級銀行的自動呼叫中心,剛開始都是采用他們的語音識別引擎技術。Nuance已經登陸了納斯達克,三星、蘋果和百度都和它傳過緋聞,傳言多次收購,但是全都無疾而終。

事實上,Nuance有點過于自大了,語音技術即便冠絕全球,但是在具體應用上,差距就沒有那么大了。語音識別技術并非高不可攀,實際上一款用戶體驗較好的語音識別系統,很大程度上依靠數據和經驗,專利和算法什么的并沒有那么重要。聰明人自然很多,所以巨頭們只需考慮挖到專業人士或者收購初創公司,自主研發出不遜于Nuance的語音識別技術也不是太難的事情,又何必花費巨資看Nuance臉色呢。

蘋果收購Siri、Novauris Technologies、VocallQ和Emotient

蘋果的Siri已經鼎鼎大名了,也算世界上語音識別的執牛耳者。Siri并不是蘋果自己研發的技術,而是2010年蘋果收購Siri Inc.公司的產品,2011年蘋果將該技術融入到iPhone 4S中并發布了Siri語音助理。Siri Inc.這家公司成立于2007年,原本核心技術是CALO人工智能項目。當然Siri剛開始發布的時候語音識別的體驗還很差,眾多果粉也是四處吐槽。因此2013年蘋果又收購了語音識別公司Novauris Technologies。Novauris是一種可識別整個短語的語音識別技術,這種技術并非簡單識別單個詞句,而是試圖利用超過2.45億個短語的識別輔助理解上下文,當然這是很有難度的一件事情。不管怎樣,這次收購也讓蘋果進一步完善了Siri的功能。

但是這還是不夠,因此2015年蘋果又收購了英國語音技術初創公司VocalIQ。VocalIQ開發的人工智能軟件,能夠幫助計算機與用戶進行更為自然的對話。VocalIQ使用機器學習(machine learning)開發虛擬助手,將語音處理和機器學習技術整合到可穿戴設備、家庭聯網設備當中的同時,這家公司還特別關注車載應用的開發。這次收購也證實了蘋果將來邁入汽車領域的決心。Siri應該是通用語音識別領域用戶體驗當前較好的產品,特別是在兒童語音識別領域,這也得益于蘋果極易上手的特性吸引了眾多小朋友,也包括筆者家里的小朋友。

當然,Siri還是距離我們的實際應用需求還差很遠,因此蘋果最近又收購了美國圣地牙哥 AI 技術公司 Emotient,接收其臉部表情分析與情緒辨別技術。據悉,Emotient開發的情緒引擎可讀取人們的面部表情并且預測其情緒狀態。

谷歌收購SayNow,Phonetic Arts,Wavii,SR Tech Group及出門問問

這個領域當然少不了大名鼎鼎的谷歌,但是谷歌動作稍微遲緩,2011年谷歌才出手收購語音通信公司SayNow和語音合成公司Phonetic Arts。SayNow可以把語音通信、點對點對話、以及群組通話和Facebook、Twitter、MySpace、Android和 iPhone等等應用等整合在一起,而Phonetic Arts可以把錄制的語音對話轉化成語音庫,然后把這些聲音結合到一起,從而生成聽上去非常逼真的人聲對話。

當然,這才只是開始,實際上語音技術遠沒那么簡單,因此2013年谷歌以超過3000萬美元收購了新聞閱讀應用開發商Wavii。Wavii擅長“自然語言處理”技術,可以通過掃描互聯網發現新聞,并直接給出一句話摘要及鏈接。但是谷歌忙活了這么久,似乎還沒真正介入語音識別行業,因此谷歌還收購了SR Tech Group 的多項語音識別相關的專利,這些技術和專利谷歌也很快應用到市場,比如YouTube已提供標題自動語音轉錄支持,Google Glass使用了語音控制技術,Android也整合了語音識別技術等等,Google Now更是擁有了完整的語音識別引擎。但是相比蘋果的戰略布局,谷歌總喜歡玩花樣,似乎戰略考慮上欠缺一些。谷歌似乎也意識到了這個問題,因此2015年入資了中國的出門問問,這是一款以語音導航為主的公司,最近也發布了智能手表,出門問問也有國內著名聲學器件廠商歌爾聲學的背景,谷歌的這個動作也被認為是谷歌重返中國的策略。亞馬遜收購Yap,Evi,Ivona Software

Amazon放在此處凸顯重要,這可是一家最有可能把語音識別落地到消費市場的巨頭。Amazon的語音技術起步于2011年收購語音識別公司Yap,Yap成立于2006年,主要提供語音轉換文本的服務。2012年Amazon又收購了語音技術公司Evi,繼續加強語音識別在商品搜索方面的應用,不得不提的是,Evi這家公司也曾經應用過Nuance的語音識別技術。2013年,Amazon繼續收購語音技術公司Ivona Software,Ivona是一家波蘭公司,主要做文本語音轉換,其技術已被應用在Kindle Fire的文本至語音轉換功能、語音命令和Explore by Touch應用之中,其最近推出的智能音箱Echo也是利用了這項技術。

Facebook收購MobileTechnologies和Wit.ai

Facebook也是巨頭了,任何視頻平臺無論如何都不能忽略了聲學技術,因此Facebook在2013年收購了語音識別公司Mobile Technologies。Mobile Technologies是一家創業型的小公司,其產品Jibbigo允許用戶在25種語言中進行選擇,使用其中一種語言進行語音片段錄制或文本輸入,然后將翻譯顯示在屏幕上,同時根據選擇的語言大聲朗讀出來。這一技術使得 Jibbigo成為出國旅游的常用工具,很好地代替了常用語手冊。當然這遠不能滿足Facebook的野心,Facebook繼續收購了語音識別公司Wit.ai。Wit.ai是一家語音交互解決方案服務商,允許用戶直接通過語音來控制移動應用程序、穿戴設備和機器人,以及幾乎任何智能設備。簡單來說,就是“能把語言轉化為可操作的數據”。當然Facebook的想法也很簡單,將這種技術應用到定向廣告之中,這種巨頭更希望將技術和自己的商業模式緊密結合在一起。

微軟戰略發展Skype、Cortana和微軟小冰

微軟這個總是以發論文為自豪的公司,技術自然很牛,也給國內這個行業培養了很多人才。例如Skype Translator,起初是為英語和西班牙語用戶提供實時翻譯服務,后來開始支持漢語和意大利語兩種語言。Skype計劃在所有相關的平臺上翻譯盡可能多的語言,從而帶來與電影《星際迷航》中一樣的智能翻譯工具,這個宏偉目標也只有這種不差錢的土豪才能說出來,萬一實現了呢?

當然微軟最吸引眼球的并非Skype,而是微軟的Cortana和微軟小冰。Cortana是一款個人用戶助理,是微軟在機器學習和人工智能領域方面的嘗試。Cortana可以記錄用戶的行為和使用習慣,利用云計算、搜索引擎和“非結構化數據”分析,讀取和學習包括手機中的文本文件、電子郵件、圖片、視頻等數據,來理解用戶的語義和語境,從而實現人機交互。而微軟小冰是微軟亞洲研究院2014年發布的人工智能機器人,微軟小冰除了智能對話之外,還兼具群提醒、百科、天氣、星座、笑話、交通指南、餐飲點評等實用技能,實際上,這個被微軟亞洲研究院定位于18歲少女的小冰,被訓練的更具有女流氓氣質。

國外其他行業的巨頭也加入收購

另外還有一些巨頭也相繼進入語音這個行業,例如2013年英特爾收購了西班牙的語音識別技術公司Indisys,同年雅虎也收購了自然語言處理技術初創公司SkyPhrase。而美國最大的有線電視公司Comcast也開始推出自己的語音識別交互系統。Comcast希望利用語音識別技術讓用戶通過語音就可以更自由控制電視,并完成一些遙控器無法完成的事情,例如用戶可以對著電視說出一些關鍵詞,就可以從他們的DVR中找出相關的視頻,而且這也將支持Comcast直播的電視節目。

國內語音識別行業的發展和技術分析

科大訊飛:中科院典范,站穩教育市場

科大訊飛是目前國內最有影響力的語音技術公司,成立于1999年底,依靠中科大的語音處理技術以及國家的大力扶持,很快就走上了正軌。在2008年的時候就已經掛牌上市,目前市值接近500億,根據2014年語音產業聯盟的數據調查顯示,科大訊飛占據了超過60%的市場份額,絕對是語音技術的龍頭企業。一提到科大訊飛,可能大家想到的都是語音識別很牛,但其實它最大的收益來源是教育,特別是在2013年左右,收購了很多家語音評測公司,包括啟明科技等,對教育市場形成了壟斷,經過一系列的收購后,目前所有省份的口語評測用的都是科大訊飛的引擎,由于其占據了考試的制高點,所有的學校及家長都愿意為其買單。這種局面很難打破,所以其霸主的地位也很難撼動。

百度語音:有錢任性,技術實力很強大

百度語音這個怎么描述才好呢,百度語音其實很早就被確立為戰略方向,2010年與中科院聲學所合作研發語音識別技術,但是市場發展相對緩慢。百度幾乎成為了很多歸國人員刷簡歷的跳板,包括一些高層,其簡歷表上都被各大巨頭公司排滿了。但這對公司來說,有個卵用。因此直到2014年,百度重新梳理了戰略,終于找對了人,請來了人工智能領域的泰斗級大師吳恩達,正式組建了語音團隊,專門研究語音相關技術,由于有百度強大的資金支持,到目前為止收獲頗豐,斬獲了近13%的市場份額,其技術實力已經可以和擁有十多年技術與經驗積累的科大訊飛相提并論。

捷通和信利:也是老牌,發展卻很坎坷

同樣也是在2000年左右,還有兩家公司也相繼成立,這就是捷通華聲和中科信利。捷通華聲憑借的是清華技術,成立初期力邀中科院聲學所的呂士楠老先生加入,奠定了語音合成的基礎。中科信利則完全依托于中科院聲學所,其成立初期技術實力極為雄厚,不僅為國內語音識別行業培養了大量人才,而且也在行業領域,特別是軍工領域發揮著至關重要的作用。中科院聲學所培養的這些人才,對于國內語音識別行業的發展極為重要,姑且稱之為聲學系,但是相對于市場來說,這兩家公司已經落后了科大訊飛一大段距離。中科信利由于還有行業市場背景,目前基本上不再參與市場運作,而捷通華聲最近也因為南大電子“嬌嬌”機器人的造假事件被推上了風口浪尖,著實是一個非常負面的影響。聲學相關類公司不同于其他行業,技術才是其發展壯大的根基。

思必馳:放棄教育市場,進軍智能硬件

在2009年左右,DNN被用于語音識別領域,語音識別率得到大幅提升,識別率突破90%,達到商用標準,這極大的推動了語音識別領域的發展,這幾年內又先后成立許多語音識別相關的創業公司。成立較早一點的是思必馳,2007年成立,創始人大部分來源于劍橋團隊,其技術有一定的國外基礎,當時公司主要側重于語音評測,也就是教育,但經過多年的發展,雖然占有了一些市場,但在科大訊飛把持著考試制高點的情況下,也很難得到突破。于是在2014年的時候,思必馳痛下決心將負責教育行業的部門剝離,以9000萬賣給了網龍,自己則把精力收縮專注智能硬件和移動互聯網,最近更是集中精力聚焦車載語音助手,推出了“蘿卜”,可市場反響非常一般。雖然思必馳最近獲得了阿里戰略注資,但是筆者訪問其官網的時候,卻發現放在首要位置的竟是小智音箱,不知道這個賣了沒幾臺的音箱能帶給思必馳什么?

云知聲:融資迅猛,就是不見落地

借著2011年蘋果Siri的宣傳勢頭,2012年云知聲成立。云知聲團隊主要來源于盛大研究院,湊巧的是CEO和CTO也是中科大畢業,與科大訊飛可以說是師兄弟。但語音識別技術則更多的源于中科院自動化所,其語音識別技術有一定的獨到之處,有一小段時期內語音識別率甚至超越科大訊飛。因此也受到了資本的熱捧,B輪融資達到3億,主要瞄準智能家居市場。但至今已經成立了3年多,聽到的更多是宣傳,市場發展較為緩慢,B2B市場始終不見起色,B2C市場也很少聽到實際應用,估計目前還處在燒錢階段。但是這樣個燒法總是危險,科大訊飛已經上市暫且不論,思必馳和出門問問也懷抱巨資試圖落地,而且語音識別行業這個玩法,國內巨頭必然也會學習國外巨頭的思路,顯然收購初創企業擁有更多話語權,相對更為實在。

出門問問:歌爾和谷歌入資,主打移動

出門問問也是成立于2012年,其CEO曾經在谷歌工作,在拿到紅杉資本和真格基金的天使投資之后,從谷歌辭職創辦了上海羽扇智信息科技有限公司,并立志打造下一代移動語音搜索產品——“出門問問”。出門問問的成功之處便是蘋果APP的榜單排名,但是筆者不知道有那么多內置地圖的情況下,為啥還要下載這個軟件,顯然有時候比直接查找地圖還要麻煩。出門問問同樣也具有較強的融資能力,2015年更是拿到了Google的C輪融資,融資額累計已經7500萬美元。出門問問主要瞄準可穿戴市場,最近自己也推出了智能手表等產品,但也是雷聲大,雨點小,沒見得其智能手表的銷量如何。

再數數其他的一些業界公司

語音識別的門檻并不高,聲學在線很多文章里提到過,因此國內各大公司也逐漸加入進來。搜狗開始采用的是云知聲的語音識別引擎,但很快就搭建起自己的語音識別引擎,主要應用于搜狗輸入法,效果也還可以。騰訊當然不會落后,微信也建立了自己語音識別引擎,用于將語音轉換為文字,但這個做的還是有點差距,想必大家也都體驗過。阿里,愛奇藝,360,樂視等等也都在搭建自己的語音識別引擎,但這些大公司更多的是自研自用,基本上技術上泛善可陳,業界也沒有什么影響力。

國內外巨頭布局語音識別的策略差異

上面歷數了國內外各個巨頭陸續建立語音識別引擎的過程和優勢技術,有一點我們還是要特別留意一下:國外巨頭欲進入語音識別行業,首先想到的就是收購初創的團隊,這些團隊大都也在5-20人之間,掌握著一定的優勢技術。顯然收購一家初創團隊很難滿足其戰略發展,因此一旦技術與公司業務融合以后,這些巨頭都會頻繁出手再次收購以補齊短板,逐漸建立起適合自己公司發展的語音識別優勢。對于技術相對重要而且技術點又比較分散的科技型公司,國外巨頭一般不會采取收購商業模式公司的那種大手筆來收購,這也是導致Nuance最終無人問津的重要因素。想想也是,巨頭自然不會用別人家引擎以免將來掣肘,何況收購技術類的大型公司無疑也是給自己找了個麻煩。

國內的語音識別發展脈路沒有那么清晰,剛開始各個巨頭也都是采用專用公司比如科大訊飛、中科信利、云知聲等公司的引擎。后來醒悟過來,紛紛謀求自建,但是除了百度不斷砸入重金后獲得了一定的效果外,其他自建的各大公司沒有啥實質性進展。這一點從他們試圖低薪聘請語音識別相關人才的策略上,也可知道其戰略上沒什么可發展的。語音識別行業屬于聲學和計算機的交叉技術,本來培養的人才就很稀缺,而從上述分析可以看出,國內外的技術源頭實際上大概集中,無非就是業界相關的研究機構和擁有研發實力的巨頭公司。

語音識別行業平衡之下的技術發展趨勢

語音識別行業現在似乎維持著最大的平衡,因為國內外各家的引擎識別率都基本在同一個水平線上,差不多達到了當前語音識別技術的極限,彼此之間差距不是那么明顯。本來蘋果發布Siri被寄予厚望,這是將語音技術進行大眾推廣的絕佳良機,但是Siri的表現卻與預期相差甚遠。即便國內非常火熱的微信,其中又有幾人使用,甚至知道其中的語音識別技術呢?倒是同樣源自聲學技術的微信搖一搖功能非常火熱。這個技術相對語音識別來說,簡直就是小巫見大巫,但是應用場景契合的很好。因此,傳統的語音識別行業公司都在謀求轉型發展,比如Nuance、科大訊飛等,轉型失敗或者技術儲備不足的,或許將來就是最早倒下的,而且這幾年也有不少家類似公司倒下了。

未來的語音識別市場,預計將會有越來越多的公司參與,以后語音識別的性能可能更多的體現在前端技術和語義理解上。機器要與人自然交流,當然就不能重復手機這套語音對話規則,必然就要考慮到用戶說話的環境、周圍環境的噪音、用戶發音不準或者方言等等諸多因素,這就要求前端技術更加精準的模擬人體結構,仿真出機器人聽覺系統,以實現解放雙手自由對話的目的。另外,機器能不能與人自由的交流,不僅需要機器能將語音轉換成文字,更需要機器從文字中理解說話人的含義,這一方面是基于大樣本的機器學習需要更進一步,另外一方面也需要小樣本的自主學習,沒有舉一反三的功能,似乎語義理解也無法自主適應陌生的環境。這兩個新興的技術領域,或許又會孕育出幾家獨角獸企業,將真正推動語音從識別走向交互的自然體驗,從而向著人工智能再次邁進一步。

所屬類別: 前沿課題

該資訊的關鍵詞為:

cf电竞梦 天龙八部手游珍兽附体 万博极速时时彩骗局 亲吻王子游戏 11选5计划软件哪个好 切沃对卡利亚里竞彩 76人西蒙斯 七夕免费试玩 白小姐二肖中特 快乐海豚走势图 pk10赛车5码34567技巧