Facebook語音助理發展慢背后:急功近利干擾開發進程
新浪科技訊 北京時間11月1日早間消息,據美國《福布斯》雜志網站報道,Facebook本月早些時候發布的智能音箱產品Portal背后問題不少,除了數據與隱私爭議,這款智能音箱還有個明顯的缺陷——缺少Facebook自己的語音助理,而是搭載亞馬遜的Alexa。
這樣就出現一個很尷尬的局面:花350美元購買Portal的Facebook用戶實際上接入的是亞馬遜系統,而亞馬遜的同類產品Echo Show比Portal至少便宜100美元。而且Facebook無法收集任何語音數據,使其語音技術得到進一步訓練。
Facebook從2013年開始大力投資語音技術。然而,盡管起步較早,作為擁有30275名員工、2017年利潤近160億美元的世界最大高科技企業之一,該公司尚未在語音領域贏得一席之地,而該技術被廣泛認為是下一代人機溝通的媒介。
這凸顯出Facebook在將新技術轉化為產品方面存在巨大困難。過去五年,Facebook收購了多家語音公司,并聘請了很多語音技術專家, 但兩名知情人士表示,上述投資難以轉化為有用的服務。原因很大程度上在于Facebook內部的意見分歧——在研發進度上產生混亂,以及開發者無法決定集 中的領域。
直到大約兩年前,公司內部人員才一致同意開發Portal,但已經太遲。“Facebook想在Portal上使用自己的語音轉文本技術,但還 沒有準備好,”一位不愿意透露姓名的資深工程師對媒體說。使用Alexa是一個“重大劣勢”,“如果無法獲取數據,就很難進步和學習,并做出改進。”
Facebook的一位發言人在回應中指出,Portal用戶可以通過說“嘿,Portal”來激活設備,以啟動呼叫和訪問設備控制,但該發言 人承認,公司必須與亞馬遜合作,“提供人們期望從家用設備中獲得的各種工具”。Facebook沒有回答關于語音技術開發的問題。在2016 年,Facebook當時的Messenger主管大衛·馬庫斯(David Marcus)說,該公司對語音技術的開發“不夠積極”。
產品經理與工程師矛盾干擾開發
事實上,Facebook一直致力于語音技術的開發,但產品經理和語音研發者之間的意見分歧干擾了努力方向。由于產品經理的開發進度要求快于技術本身發展的水平,這讓工程師倍感壓力。
一位資深工程人士說,產品經理經常希望語音技術研究能在“半年內”轉化為產品。問題在于,由于語音技術的復雜性,構建語音技術需要半年以上時 間。語音數據在不斷變化,麥克風的類型不同,還有不同的口音和麥克風之間不同的處理硬件。要構建識別語音的軟件,還需要首先在語音數據庫上進行訓練,然后 將其投入實際應用,然后進一步在真實語音上進行訓練。
比如蘋果Siri 的這一過程持續兩年多。當蘋果在2011年10月推出Siri時,它將語音識別軟件外包給了Nuance,一個語音識別領域的老牌企業。但蘋果不喜歡在戰 略產品方面依靠第三方,因此開始著手建立自己的軟件。2013年,蘋果在波士頓(距離Nuance幾英里)設立了語音技術辦公室,2015年,蘋果公司悄 悄放棄了Nuance這一合作伙伴。
就語音識別技術總體而言,谷歌處于領先地位。愛爾蘭語音技術初創公司Voysis創始人皮特·卡希爾(Peter Cahill)對硅谷語音領域的描述是:“Google在頂部,然后是亞馬遜和蘋果,然后是Facebook。”他補充說,“最后一家正在努力冒出來。”
當時在Facebook高管團隊中,有人希望使用語音技術研發Siri之類的數字助理,但這些項目需要長期付出大量時間和人力。由于研究者和產品經理之間缺乏合作,最終都不了了之。
消息人士稱,很多參與開發Facebook語音項目的產品經理對其中所涉及的技術缺乏清醒的認識。經理們也往往每三到六個月一換,核心人員被吸 引到大名鼎鼎的內部研究部門——FAIR和AML。這就相當于不斷栽樹,卻不給它生根成長的機會。說到底,Facebook的問題在于缺少“一個有凝聚力 的團隊”。
比如,Facebook每六個月舉行一次小組產品評審,通常會使研發方向發生變化,從基于語音的搜索,到新聞轉錄,再到Messenger語音助理——所有這些內部項目均未轉化為產品。
收購初創企業獲得技術被浪費
值得稱道的是,Facebook在語音技術方面起步較早。2013年收購了移動科技(Mobile Technologies)——一家由卡內基梅隆大學(Carnegie Mellon University)推出的初創公司。他們開發了一款早期的翻譯應用程序Jibbigo,可以聽一種語言的語音,然后用另一種語言播放。當 Facebook以未公開金額收購這家初創公司及其幾十名研究人員時,引發了令人興奮的猜測,即Facebook將開始與蘋果Siri或者更多競爭對手合 作。
“語音技術已經成為人們導航移動設備和網絡的方式,其重要性日益顯現,”當時領導這項交易的Facebook的湯姆·斯托基(Tom Stocky)寫道。“這項技術將幫助我們更新我們的產品以適應進化需要。”
然而,即使Facebook將Jibbigo的團隊規模擴充到原來的兩倍,后者的語音識別技術最終也沒派上用場。據參與交易的人士透露,Facebook主要想利用Jibbigo的技術來翻譯用戶帖子中的文本,這樣就不必依賴微軟的必應(Bing)。而Jibbigo研發的語音識別技術在一年后“下馬”,此人補充說,這一收購基本上就是一場浪費。“它沒有產生足夠的點擊……(人們)沒有那么多說另一種語言的朋友。”
語音技術由兩個關鍵組成部分組成。第一個是語音識別,還有一個是自然語言理解,也被稱為語音AI。
2014年,Facebook收購了Wit.ai——一家專門從事自然語言理解的公司,向開發者授權使用軟件,把文本的混亂結構變成可用軟件查 詢的數據。然而,Facebook并沒有將該公司的技術和語音識別技術結合起來,而是使用它來幫助企業建立Facebook Messenger聊天機器人,這是在2016年4月發起的一項變現計劃。
“Facebook從來沒有明確的語音識別策略,”另一位高級工程人員說。“從來不清楚為什么要買下(Jibbigo)。這在內部是個大問題。我們知道有這樣一支團隊,但沒人知道他們為什么出現在這里。”
內部研究機構成“雞肋”
據消息人士透露,Facebook的語音努力最終體現在2015年到2017年的兩個領域:一個是轉錄Facebook視頻的音頻,以制作實時字幕,另一個是發布Facebook人工智能部門FAIR(即Facebook人工智能研究)的尖端研究成果。
Facebook在2013年12月啟動FAIR項目,該部門常被比作DeepMind——2014年谷歌花費4億美元并購的AI研究公司。這 個部門由50名研究人員組成,在AI研究“大咖”Yann LeCun的帶領下解決人工智能中的長期問題。公司內部還有一個類似部門稱為AML(即應用機器學習),有大約100名工作人員,負責人工智能研究的商業 化。
根據Facebook一位資深人士透露,這些部門的所扮演的角色很復雜——聚集一堆研究者,但對產品開發毫無貢獻,還引誘技術熟練的工程師脫離產品開發。“它創造了一個平行的研究世界,”消息人士說。
最終,Facebook之所以沒有更多投入于語音技術的開發,原因正如知情者所言:“沒有客戶,沒有人對Facebook說‘我需要這種技術。’”
這正是那些想在更廣泛競爭中勝出的高科技公司所面臨的挑戰。不斷創新意味著在一個尚未被證實的技術上投下決定性賭注,即使缺少明顯的客戶。Facebook之前沒有在語音技術上及時發力,等他們出手時,早已時不我待。(斯眉)