對于很多人而言,將電話號碼添加到手機上是一件再普通不過的事了。沒想到的是,這卻讓來自西非幾內亞農村的Aissatou格外為難。
“我不會,因為我沒上過學,不認識字。”她低聲說道。由于缺乏正規(guī)教育,Aissatou不會用法語閱讀或書寫。本以為這并不會妨礙她使用手機的基本服務,然而,正如呈現(xiàn)在眼前的:Aissatou的手機“聽不懂”她的當?shù)卣Z言。
這不由得讓人產生疑問:人工智能(AI)系統(tǒng)應該理解人們(所有人)使用語言的方式嗎?
無法識別的語言
西非人使用自己的語言已有數(shù)千年的歷史,他們創(chuàng)造了豐富的口述歷史傳統(tǒng),即通過將祖先的故事和歷史觀點生動地呈現(xiàn)出來,并傳遞知識和道德,為社區(qū)服務。
計算機可以輕松地支持這種口述傳統(tǒng)。盡管計算機通常是為使用書面語言而設計的,但基于語音的技術確實存在。
然而,語音技術并不能“說”非洲人使用的2000種語言和方言中的任何一種。即便是蘋果的Siri、谷歌助手和亞馬遜的Alexa都不會“說”非洲語言。
事實上,世界上7億文盲中的大多數(shù)人都無法享受移動技術帶來的好處,除了接聽電話等簡單用途之外,他們無法使用像聯(lián)系人管理或短信這樣的簡單功能。由于文盲往往與缺乏教育有關,因此他們無法使用一種通用的世界語言。
最需要語言技術的人無法獲得語言技術,對他們來說,語音識別技術可以幫助縮小文盲與其他能從農業(yè)信息到醫(yī)療保健等獲得有價值的信息及服務的人之間的差距。
為什么語音技術產品不能在非洲和其他當?shù)卣Z言中使用?這是因為人口較少的語言往往是商業(yè)優(yōu)先權的犧牲品。而且,在技術產品和服務上擁有權力的群體常常會說同樣的幾種語言,這很容易讓人忽視具有不同背景的其他群體。此外,在歷史上開發(fā)過語音識別技術的研究實驗室、公司和大學里,使用西非廣泛使用的語言的人數(shù)嚴重不足。
多重挑戰(zhàn)
眾所周知,數(shù)字技術可能會對不同種族的人產生不同的影響,技術系統(tǒng)可能無法為不同用戶提供相同質量的服務。
與此同時,商業(yè)優(yōu)先級、權力和代表性不足都加劇了另一個關鍵性挑戰(zhàn):缺乏數(shù)據(jù)。
語音識別技術的發(fā)展需要大量的標注數(shù)據(jù)集。不識字的人從語音識別技術中受益最多,他們所使用的語言往往屬于“資源匱乏”的類別,與“資源豐富”的語言相比,這類語言可使用的數(shù)據(jù)集很少。
目前,解決數(shù)據(jù)短缺問題最先進的方法是“遷移學習”,即將從資源豐富的語言學習到的知識,轉移到資源匱乏語言的機器學習任務上。
然而,人們對實際遷移知之甚少,因此需要對遷移學習中使用的數(shù)據(jù)集的相關性、大小和質量之間的權衡進行更嚴格的調查。就目前的技術水平而言,未來10年,數(shù)以億計的上網用戶將不會使用其設備所提供的語言。
如果這些用戶設法訪問在線服務,他們無疑將無法享受使用通用世界語言的人所能享有的自動內容審核和其他保護措施帶來的好處。
擴展語音識別的“語言”
科研人員目前正在努力解決這些問題。
最近,美國斯坦福大學計算機科學專業(yè)的研究人員專門為尼日爾—剛果語系的Maninka、Pular和Susu這三種資源匱乏的語言(7個國家總共有1000萬人使用這些語言,其中高達68%的人是文盲)開發(fā)了第一個語音識別模型。
為了應對資源匱乏語言的挑戰(zhàn),研究人員使用了即便在資源匱乏語言中也可以使用的大量語音數(shù)據(jù):無線電廣播檔案庫。
他們?yōu)榇隧椦芯渴占藘蓚數(shù)據(jù)集:一個是西非無線電語料庫,包含了超過10種語言的142個小時的音頻,并帶有一個標記的驗證子集;另一個是西非虛擬助理語音識別語料庫,由1萬段標注了4種語言的音頻片段組成。
隨后,研究人員創(chuàng)建了“西非wav2vec”,這是一種在嘈雜的無線電語料庫上訓練的語音編碼器,并將其與作為基線的臉書(Facebook)語音編碼器進行了比較,后者接受了6倍以上高質量數(shù)據(jù)的訓練。比較結果表明,盡管西非無線電語料庫規(guī)模小且噪音大,但全新的語音編碼器在多語言語音識別任務中的表現(xiàn)與基線相似,并且顯著優(yōu)于基線在西非語言識別任務中的表現(xiàn)。
最后,研究人員為不識字且使用Maninka、popular和Susu三種語言的人設計了一個多語言智能虛擬助手原型。他們目前正在將其所有的數(shù)據(jù)集、代碼和訓練過的模型發(fā)布給研究界,希望它能促進這些領域的進一步發(fā)展。
“我們的目的在于為有道德的人工智能研究提供一條前進的道路,以服務于那些因數(shù)字鴻溝而處于最不利地位的人的需求。”研究人員如是表示。
未來可期
早期的計算機專家們知道,為了讓編程能夠為大眾所接受,他們需要創(chuàng)建出便于人們學習的編程語言。即使在那時,第一批高級編程語言也還是高度技術化的。
如今,用戶從多層抽象中受益:你不需要理解JavaScript就能在計算機上閱讀文章,而且人工智能研究人員也不需要與匯編代碼進行交互來推動計算機科學領域的發(fā)展。
不過,計算機還沒有充分發(fā)展到能在某些社會中發(fā)揮作用的程度。
目前,語音識別模型僅能識別有限的聯(lián)系人管理詞匯。下一步,研究人員計劃進一步擴大其詞匯量,提供覆蓋小額信貸、農業(yè)或教育等領域的詞匯。不僅如此,他們還希望將其功能擴展到尼日爾—剛果語系及其他地區(qū)的更多語言,這樣讀寫能力或說外語的能力將不再成為享受技術優(yōu)勢的先決條件。
大量無線電數(shù)據(jù)使得將編碼器擴展到其他語言變得非常簡單。“通過對語言家族進行更多語言的培訓,這個語音識別模型可能會表現(xiàn)得更好。”研究人員充滿信心地表示。
毋庸置疑,要創(chuàng)造出能理解成千上萬種有豐富口語特征(比如語氣和其他高級語義)的語言來理解口語交流微妙之處的計算機是很有挑戰(zhàn)性的。不過,研究人員堅持不懈地探索、突破,讓人們對未來充滿期待。
畢竟,創(chuàng)新、獲取和安全都要求技術能夠使用世界上所有的語言。