在新西蘭一個偏遠的鄉(xiāng)村小鎮(zhèn),一對土著伙伴正在挑戰(zhàn)人工智能可能是什么,以及它應該為誰服務這一議題。新西蘭最北端地區(qū)一座古老而灰色的建筑的后屋里,最先進的人工智能計算機之一正在幫助重新定義這項技術的未來。
TeHiku 傳媒是一家由合作伙伴彼得-盧卡斯·瓊斯(Peter-Lucas Jones)和基奧尼·馬赫洛納(Keoni Mahelona)運營的非營利性毛利人廣播電臺,他們以 50% 的折扣價購買了這臺機器,以訓練自己的自然語言處理算法。如今兩人的核心夢想是振興毛利語,并接管他們所在團體的各種數(shù)據(jù)。
馬赫洛納是夏威夷土著,在愛上了新西蘭后定居在這里,他笑著談起了這種奇異的情況。“這臺電腦就被放在凱塔亞的一個架子上,就在這樣一個窮困潦倒并擁有大量土著人口的廢棄之地。我想我們已經(jīng)有點低調了,”他說。
該項目與人工智能行業(yè)經(jīng)典運作方式完全不同。在過去的十年里,人工智能研究人員以“越多越好”為教條將該領域推向了新的極限:積累更多的數(shù)據(jù),生成更大的模型(即用這些數(shù)據(jù)訓練的算法),以產(chǎn)生更好的結果。
這種方法帶來了顯著的突破,但也導致了巨大成本。各路公司永不停息地挖掘人們的面孔、聲音和行為數(shù)據(jù),以擴大營業(yè)額。通過來自整個人口的數(shù)據(jù)而建立的人工智能模型,已經(jīng)使得少數(shù)族裔和某些團體被邊緣化,即使他們仍極大地受制于該技術的影響。
多年來,越來越多的專家一致認為,這些技術沖擊正在重復著殖民歷史的模式。他們說,全球人工智能的發(fā)展正在使沒有發(fā)言權的團體和國家陷入貧瘠——這些社區(qū)和國家已經(jīng)被以前的殖民帝國貧困化。
這一點在人工智能和語言文字中尤為明顯?!霸蕉嘣胶谩钡睦砟钜呀?jīng)創(chuàng)造了具有強大的自動完成和文本分析功能的大型語言模型,現(xiàn)在被用于搜索、電子郵件和社交媒體等日常網(wǎng)絡服務。但是,這些通過吸引大量互聯(lián)網(wǎng)資源而建立的模式,也在加速語言文化的消失,就像以前的殖民和同化政策一樣。
只有最通用的語言才有足夠的使用者和足夠的潛在利潤,而科技巨頭則收集它們所需的數(shù)據(jù)以助其發(fā)展。因此,在日常工作和生活中對這些服務的依賴,迫使一些團體使用主導語言,而不是他們自己的語言。
“數(shù)據(jù)是殖民化的最后一個前沿陣地,”馬赫洛納說。
在利用人工智能幫助復興毛利人的語言時,馬赫洛納和瓊斯即這兩位毛利人,想要做一些不同的事情。他們克服了資源限制,開發(fā)了自己的人工智能語言工具,并創(chuàng)建了收集、管理和保護毛利人數(shù)據(jù)流的機制,以免在沒有毛利人群體同意的情況下使用。
正如硅谷許多人所應對的“人工智能苦果”一樣,瓊斯和馬赫洛納的方法可以為新一代人工智能指明道路,它不將邊緣化的人僅僅視為數(shù)據(jù)對象,而是將他們重新確立為同享未來的共同創(chuàng)造者。
像全球許多土著語言文化一樣,毛利人隨著殖民化開始衰落。
1840 年,英國宣稱奧特亞羅瓦即新西蘭的毛利語名字,成為其殖民地后,英語逐漸成為當?shù)亟?jīng)濟活動的通用語。1867 年,《本土學校法案》使英語成為毛利人兒童可以使用的唯一語言。作為更廣范圍同化政策的一部分,學校開始羞辱、甚至毆打那些試圖使用毛利語的毛利學生。
在接下來的幾十年里,城市化打破了毛利人社區(qū),削弱了文化和語言保護的中心。許多毛利人也選擇離開,以尋找更好的經(jīng)濟出路。在一代人的時間里,說毛利語的毛利人比例從 90% 驟降到 12%。
20 世紀 70 年代,毛利人團體的領袖和活動人士震驚于這一現(xiàn)象,拼命努力扭轉這一趨勢。他們創(chuàng)建了兒童語言沉浸式學校和成人學習項目。他們走上街頭游行,要求毛利語和英語享有同等的地位。
1987 年,當?shù)卣ㄟ^了《毛利人語言法案》,宣布毛利語為一種官方語言。三年后,政府開始資助創(chuàng)建毛利社區(qū)、或部落,以及像 TeHiku 媒體一樣的電臺,其以毛利語公開廣播,以提高該語言的普及性。
我今天交談過的許多毛利人,某種程度上是用他們父母或祖父母是否說過毛利語,來認同自己的毛利人身份。在一個能接觸到代際語言文化傳播的環(huán)境中長大,被認為是一種殊遇。
語言文化存續(xù)的黃金準則是:在孩童時期通過日常接觸來學習它們。作為一個青少年或成年人,在學術環(huán)境中學習會更困難。每個部落的毛利語都有其獨特的口音、慣用語和區(qū)域歷史風格,而一本教科書通常只教授一種或“標準”的毛利語版本。
換句話說,語言不僅僅是一種交流的工具。它表達了一種文化傳統(tǒng),因為它從父母傳到子女,從子女傳到下一代,并通過那些使用它以及賦予其意義的人而演變。語言被文化影響的同時也發(fā)揮著影響,語言塑造了人際關系、世界觀和自我認同?!斑@是我們的思考和向彼此表達自我的方式,”另一位使用人工智能復興一種迅速消亡語言的本土技術專家邁克爾·朗寧·沃爾夫(Michael Running Wolf)說。
因此,保護一種語言就是保護一種文化歷史。但尤其是在數(shù)字時代,要擺脫一種少數(shù)民族語言的下坡路,就需要不斷保持警惕。每一個不支持該語言的新交流方式都迫使人們選擇使用主導語言,或是放棄融入多數(shù)文化的機會。
“如果這些新技術只能用西方語言,我們現(xiàn)在就會被排除在數(shù)字經(jīng)濟之外,”朗寧·沃爾夫說,“如果不能在數(shù)字經(jīng)濟中發(fā)揮作用,那么我們的語言文化將真的很難蓬勃發(fā)展?!?/span>
隨著人工智能的出現(xiàn),語言的復興現(xiàn)在正處于一個十字路口。這項技術可以進一步確立主導語言的霸權地位,也可以幫助少數(shù)民族語言進入數(shù)字世界,這也是瓊斯和馬赫洛納抓住的機遇。
早在瓊斯和馬赫洛納開始這段旅程之前,他們就在惠靈頓的游泳俱樂部成員聚會燒烤時相遇了。兩人一拍即合。馬赫洛納帶著瓊斯騎了一次長途自行車。“剩下的都是陳年舊事了,”馬赫洛納說。
2012 年,兩人搬回了瓊斯的家鄉(xiāng)凱塔亞,瓊斯成為了 TeHiku 媒體公司的 CEO。由于其與世隔絕,該地區(qū)仍然是奧特亞羅瓦(即新西蘭)經(jīng)濟最貧困的地區(qū)之一,但同樣,它的毛利人口數(shù)量也是該國保護得最好的地方之一。
在其 20 多年的廣播歷史中,TeHiku 公司已經(jīng)積累了豐富的電視音樂音頻材料存檔,包括瓊斯自己的祖母拉哈·莫羅亞(Raiha Moeroa)的錄音,她生于 19 世紀末,她的毛利語在很大程度上沒有受到殖民影響。
瓊斯看到了一個數(shù)字化檔案的機會,并創(chuàng)造了一個比較現(xiàn)代化的代際語言文化傳播方式。大多數(shù)毛利人不再和他們的毛利部落生活在一起,也不能依靠附近的親戚來進行日常的毛利語交流。然而,有了數(shù)字文館,他們就可以隨時隨地聽從前的長輩們的毛利語。
當?shù)氐拿瞬柯湓试S瓊斯繼續(xù)推進這項工作,但需要一個地方在線存放這些材料。他和馬赫洛納都不喜歡把它們上傳到 Facebook 或 YouTube 上,因為這將允許科技巨頭們利用寶貴的數(shù)據(jù)“肆意妄為”。
幾年后,一些公司確實開始與說毛利語的人合作,以獲取此類數(shù)據(jù)。例如,Duolingo 公司試圖創(chuàng)建語言學習工具,然后將其在毛利人團體中推廣。瓊斯說:“我們的數(shù)據(jù)將被那些拋棄我們這些語言的人利用,把它作為一種服務賣給我們?!薄斑@就像拿走屬于我們的土地再賣回給我們一樣,”馬赫洛納補充道。
唯一的選擇是為 TeHiku 建立自己的數(shù)字托管平臺。憑借工程背景,馬赫洛納同意領導這個項目,并加入了該公司,擔任 CTO。
數(shù)字平臺成為 TeHiku 建立數(shù)據(jù)主權的第一步——群體通過這一策略尋求對自己數(shù)據(jù)的管控,以確保對其未來的控制。毛利人數(shù)據(jù)主權網(wǎng)絡的聯(lián)合創(chuàng)始人塔胡·庫庫泰(Tahu Kukutai)說,對毛利人來說,對這種數(shù)據(jù)自治權的渴望植根于歷史。
在最早的殖民地人口普查中,在一系列毀滅性的戰(zhàn)爭中,英國人殺死了數(shù)千名毛利人并沒收了他們的土地,之后英國收集了有關部落數(shù)量的數(shù)據(jù),以跟蹤政府的同化政策的成功與否。
因此,數(shù)據(jù)主權是土著居民抵抗的最新例子——反對殖民者、反對單一民族國家,現(xiàn)在又反對大型科技公司?!懊~可能是新的,語境可能是新的,但數(shù)據(jù)主權建立在一個非常古老的歷史之上,”庫庫臺說。
2016 年,瓊斯開始了一項新項目:在 90 多歲的毛利語使用者失去他們的語言和知識之前采訪他們。他想創(chuàng)建一個工具,在每次采訪都顯示一個文字轉錄。然后,毛利語學習者將能夠將鼠標懸停在單詞和詞組上看到它們的定義。
但幾乎沒人足夠精通這種語言能人工轉錄音頻。受到像 Siri 這樣的語音助手的啟發(fā),馬赫洛納開始研究自然語言處理。“教電腦說毛利語是絕對必要的,”瓊斯說。
但 TeHiku 傳媒面臨著一個先有雞還是先有蛋的問題。為了建立一個毛利語的語音識別模型,它需要大量的轉錄音頻。為了轉錄音頻,它需要精通這門語言的人,而這個群體人數(shù)太少,這也正是模型一開始就想要彌補的。然而,有很多初級和中級毛利語使用者能夠熟讀毛利單詞,但是不能從錄音中辨認出來。
因此,瓊斯和馬赫洛納,以及 TeHiku 傳媒的 COO 蘇珊娜·鄧肯(Suzanne Duncan),設計了一個聰明的解決方案:與其轉錄現(xiàn)有的音頻,不如讓人們錄下自己閱讀一系列事先設計好的語句的錄音,以捕捉該語言全部音域的聲音。
對于一個算法,這種方法得到的數(shù)據(jù)集使用起來沒有差別。從這成千對萬的語音和文本句子對中,該算法將學會識別音頻中的特定毛利語音節(jié)。
該隊宣布舉行了一場比賽。瓊斯、馬赫洛納和鄧肯聯(lián)系了他們能找到的每一個毛利人社區(qū)團體,包括一些傳統(tǒng)的毛利舞蹈團和毛利浮架獨木舟競速隊,他們透露,提交錄音數(shù)量最多的團隊,將獲得 5000 美元的大獎。
整個毛利群體都動員起來了,競爭變得激烈起來。毛利人團體成員特·米辛加·科涅(Te Mihinga Komene),作為一名教育家和利用數(shù)字技術振興毛利語的倡導者,一人就錄音了 4000 個短語。
金錢并不是唯一的驅動力。人們接受了 TeHiku 傳媒的愿景,并相信它能保護他們的數(shù)據(jù)?!癟eHiku 傳媒說,'對于你們給我們的數(shù)據(jù),我們都是監(jiān)護人的身份。我們會接管數(shù)據(jù),但你仍然擁有你們音頻的所有權,’”米辛加說,“這是很重要的。這些價值觀定義了我們的毛利人身份?!?/span>
在 10 天內,TeHiku 傳媒從大約 2500 人錄制的約 20 萬段錄音中收集了總時長 310 小時的語音-文本對,這是人工智能領域研究人員聞所未聞的參與度?!俺嗣私M織,沒有人能夠做到,”迦利布·摩西(Caleb Moses)說,他是毛利人的數(shù)據(jù)科學家,他在社交媒體上了解了情況后加入了這個項目。
盡管與通常用于訓練英語語言模型的成千上萬小時的數(shù)據(jù)相比,這些數(shù)據(jù)量仍然很小,但這足以啟動整個項目。利用這些數(shù)據(jù)輔助引導 Mozilla 基金會現(xiàn)有的開源模型, TeHiku 傳媒創(chuàng)建了第一個準確率為 86% 的毛利語語音識別模型。
從那時起,這種方法在其他人工智能語言技術中開枝散葉。馬赫洛納、摩西和一個新組建的團隊創(chuàng)建了第二種和第三種算法,分別用于自動標記復雜的毛利語短語和向毛利語學習者提供發(fā)音準確性的實時反饋。
該團隊甚至嘗試了用語音合成技術來創(chuàng)建相當于 Siri 的毛利語語音助手,盡管最終沒有達到可以部署的質量要求。
一路走來,TeHiku 傳媒建立了新的數(shù)據(jù)主權協(xié)議。像摩西這樣的毛利人數(shù)據(jù)科學家仍然很少,但那些來自社區(qū)之外的人不能隨心所欲地使用這些數(shù)據(jù)。瓊斯說:“如果他們想嘗試探索這些數(shù)據(jù),他們會問我們,而我們基于我們的價值觀和原則作出決定方式?!?/span>
這可能具有挑戰(zhàn)性。開源的、自由發(fā)展的數(shù)據(jù)科學文化往往與數(shù)據(jù)主權的實現(xiàn)背道而馳,人工智能領域文化也是如此。瓊斯說,TeHiku 傳媒有時不得不拒絕一些數(shù)據(jù)科學家的請求,因為他們“只是想訪問我們的數(shù)據(jù)”。現(xiàn)在,公司正尋求通過實習項目和開放初級職位來培養(yǎng)更多的毛利人數(shù)據(jù)科學家。
后來,TeHiku 傳媒通過其全新數(shù)字語言平臺 PapaReo,開放了絕大部分工具的接口。公司還與毛利人領導的組織合作,比如教育有限公司 Afed,后者正在開發(fā)一款應用程序來幫助毛利語學習者練習他們的發(fā)音。
“這顛覆了傳統(tǒng)規(guī)則,”Afed 公司創(chuàng)始人卡姆·斯威森-萬加(Cam Swaison-Whaanga)說,他也在進行自己的毛利語學習之旅。學生們不再需要為在課堂上當著老師和同學面前大聲說話而感到害羞。
TeHiku 傳媒也已經(jīng)開始與小規(guī)模的土著居民合作。在太平洋地區(qū),許多人和毛利人有相同的波利尼西亞祖先,他們的語言有共同的根源。利用毛利語數(shù)據(jù)作為基礎,庫克群島的研究人員能夠訓練庫克群島的初始語言模型,僅使用幾十小時的數(shù)據(jù)就能達到大約 70% 的準確率。
馬赫洛納說:“這不再僅僅是教電腦說毛利語了?!薄斑@是在為太平洋地區(qū)語言建立一個語言基礎。我們都在努力保持我們語言的活力?!?/span>
但瓊斯和馬赫洛納知道,總有一天,他們將不得不與土著社區(qū)和組織之外的團體合作。如果他們想讓毛利語真正無處不在——甚至在 iPhone 和安卓系統(tǒng)上擁有說毛利語的語音助手,他們就需要與科技巨頭合作。
“雖然你有能力在社區(qū)做很酷的語音識別等等,但你得讓團體里的人把它用起來,”凱文·斯坎內爾(Kevin Scannell)說,他是一位推動振興愛爾蘭語言的計算機科學家,他在自己的研究中也在努力應對這種妥協(xié),“有一個可以讓你輸入文本并輸出語音的網(wǎng)站很重要,但這和讓每個人都能在手機上用起來并不一樣?!?/span>
TeHiku 傳媒正在為這種不可避免的情況做準備。它創(chuàng)建了一個數(shù)據(jù)許可,根據(jù)毛利人的監(jiān)護原則,闡明了未來合作的基本原則。在許可范圍內只授予數(shù)據(jù)訪問權限給尊重毛利人價值觀的組織,并將使用數(shù)據(jù)所獲得的任何利益?zhèn)骰亟o毛利人民。
該許可證尚未被 TeHiku 傳媒之外的組織使用,關于其可執(zhí)行性仍存在問題。但這個想法已經(jīng)激發(fā)了其他人工智能研究人員的靈感,比如 Mozilla 基金的 “公共語音”項目里的凱瑟琳·西宇(Kathleen Siminyu),該項目無償收集語音數(shù)據(jù),以建立用于不同語言的語音識別的公共數(shù)據(jù)集。
目前,這些數(shù)據(jù)集可以用于任何目的進行下載。但去年,Mozilla 基金開始探索一種更類似于 TeHiku 傳媒的許可,貢獻己方數(shù)據(jù)的語言社區(qū)將被賦予對這些數(shù)據(jù)集更多的控制權限。
凱瑟琳說:“希望能讓人們知道,對數(shù)據(jù)集的貢獻會讓你對數(shù)據(jù)集的使用更有發(fā)言權?!?/span>
谷歌的人工智能倫理研究團隊前聯(lián)合負責人瑪格麗特·米切爾(Margaret Mitchell)也同意這一觀點,該團隊進行數(shù)據(jù)管制和所有權領域方面的研究?!斑@正是我們想要廣泛地為各種不同類型技術所開發(fā)的許可。我真的很想看到更多這樣的東西,”她說。
在某些方面,TeHiku 傳媒很幸運。毛利語可以利用以英語為中心的人工智能技術,因為它在字母表、聲音和單詞結構等關鍵特征上與英語有足夠的相似性。毛利人也是一個相當大的土著群體,這使他們能夠積累足夠的語言數(shù)據(jù),并找到像摩西這樣的數(shù)據(jù)科學家來幫助現(xiàn)實他們的愿景。
“大多數(shù)其他社區(qū)還不夠大,不足以產(chǎn)生這些幸運的偶然事件,”杰森·愛德華·劉易斯(Jason Edward Lewis)說,他是一名數(shù)字技術專家和藝術家,他共同組織了土著人工智能網(wǎng)絡。
與此同時,他說,TeHiku 傳媒已經(jīng)成為一個強有力的證據(jù),證明人工智能可以在硅谷富有的盈利組織之外,由它應該服務的人建立。