無論膚色、階層、國籍、身體和認(rèn)知狀態(tài),所有人都應(yīng)能夠感受科技帶來的進(jìn)步。
文 | 光譜
去年,Google 在 I/O 大會上展示了AI 所取得的令人驚訝的能力。而今年,它仍然沒有讓我失望。
2019年5月7日,Google 年度開發(fā)者大會 I/O 2019 在老地點(diǎn)正式召開。從搜索到 Android,從智能助理到深度學(xué)習(xí),這家地表最強(qiáng)科技公司的眾多部門一展在過去一年時間里取得的進(jìn)展。
今年的許多新功能、技術(shù)和體驗(yàn),重點(diǎn)都被放在了“用 AI 為人服務(wù),降低干擾、去除繁瑣和提高效率”這件事上。
在本屆 I/O 大會中,我們看到了一個從未如此強(qiáng)大,甚至接近所謂“通用人工智能”的 Google Assistant 虛擬助理。只需要用自然語言發(fā)布命令,它就可以完成過去從未想過能完成的任務(wù);
我們還感受到圍繞 Google 搜索的新功能帶來的前所未有的體驗(yàn)創(chuàng)新,讓我們在國外旅行時再也不用擔(dān)心看不懂菜單、交通指示;
通過新的深度學(xué)習(xí)技巧 federated learning,用戶不需要上傳數(shù)據(jù),就能感受到 AI 模型所帶來的定制化體驗(yàn)。Google 將它運(yùn)用到了十億級用戶的產(chǎn)品當(dāng)中,讓我們看到它在 AI 的時代保護(hù)用戶數(shù)據(jù)隱私,不只是嘴上說,也有切實(shí)的行動。
這次 I/O 上,Google 還宣布了許多面向障礙人士設(shè)計(jì)的功能,比如讓為“漸凍人癥”(ALS)患者的面部表情設(shè)計(jì)神經(jīng)網(wǎng)絡(luò),從而讓機(jī)器可以理解這些障礙人士的“自然語言”……
1
AI 幫你完成重復(fù)工作
在北美工作和生活,經(jīng)常在線上完成訂單的同學(xué)可能經(jīng)常遇到這一情況:每次都要填寫大量的表格,輸入重復(fù)的信息,包括姓名、聯(lián)系方式、機(jī)票時間班次、車型、賬單地址、送貨地址等,來回在各種網(wǎng)頁跳轉(zhuǎn),如果在手機(jī)網(wǎng)頁上還要放大縮小頁面點(diǎn)到表格上才能輸入……浪費(fèi)了大量的時間
為什么這類操作,不能像密碼 autofill 那樣自動完成?
Duplex on the web 是 Google Assistant 的一個新能力。它的任務(wù),就是幫助你在網(wǎng)頁上完成任何任務(wù)。不過目前,它主攻的方向是完成訂單,比如網(wǎng)購、租車和訂票。
比如在下面視頻中,用戶因?yàn)槌霾钚枰廛嚒oogle Assistant
1)通過日歷提取了用戶的日程、目的地和往返航班信息,
2)自動打開租車網(wǎng)站,確認(rèn)上述信息是否正確,
3)再按照用戶以往租車習(xí)慣直接選擇車型,再次跟用戶確認(rèn),
4)最后確認(rèn)整個訂單。
如果你仔細(xì)觀察,全程用戶只點(diǎn)了4次屏幕……四次!就下好了訂單,完成了整個租車的流程。
為什么 Google Assistant 能夠代替用戶完成這些任務(wù)?首先,因?yàn)?Google 內(nèi)部系統(tǒng)打通,Assistant 可以讀取用戶的 Gmail、日歷以及保存好的付款信息,從而免去用戶手動輸入。其次,Duplex on the web 本身是一項(xiàng)非常復(fù)雜,但在提升用戶效率上效果拔群的技術(shù)。它的核心是一個遞歸神經(jīng)網(wǎng)絡(luò) (RNN),執(zhí)行包括自然語言理解、處理、語音識別、文字轉(zhuǎn)語音、信息錄入等多種任務(wù)。
去年我們報(bào)道過,Duplex 可以模擬出一個自然聲音,替用戶給餐館、酒店或理發(fā)店打電話,展現(xiàn)出了強(qiáng)大的自然語言計(jì)算能力。
其實(shí),Duplex 的本質(zhì)就是一個專門做“下訂單”這件事的聊天機(jī)器人。不過,去年的 Duplex 和今年的 Duplex on the web 區(qū)別在于:前者的交互就是聊天,基于語音識別和自然語言處理,后者更強(qiáng)調(diào)讓 AI 完成基于圖形界面的交互工作。
該功能將在今年晚些時候面向美國和英國市場推出,支持所有內(nèi)置 Google Assistant 的 Android 手機(jī),可以完成的任務(wù)包括租車和電影票。
無疑,如果你已經(jīng)在使用 Google 產(chǎn)品,Google 就已經(jīng)拿到了你大量的數(shù)據(jù)。在無法離開谷歌全家桶/沒有更好的替代方案前提下,我們自然會希望 Google 為我們帶來更多的價值。Duplex on the web 就是這樣一個功能,它幫助我們完成高重復(fù)性的工作,帶來了效率和體驗(yàn)的提升。
2
更快、更聰明的虛擬助手
今年,由于在遞歸神經(jīng)網(wǎng)絡(luò)技術(shù)方面的進(jìn)步,Google 將新版 Google Assistant 背后的神經(jīng)網(wǎng)絡(luò)模型大小從數(shù)百 GB 縮小到了不到500MB。這意味著兩件事:
1)Google Assistant 終于可以不需要和云端相連,在本地使用了;
2)正因?yàn)椴恍枰?lián)網(wǎng),它的語音識別、響應(yīng)和完成任務(wù)的速度顯著提升了。
現(xiàn)場演示的效果令人震驚。隨著演示者說出命令,句子說完的一秒鐘之內(nèi) Google Assistant 已經(jīng)執(zhí)行完畢:演示者命令手機(jī)打開計(jì)算器、日歷、瀏覽器等軟件,以及約翰·傳奇的 Twitter 頁面,Assistant都迅速完成了任務(wù)。
演示者讓 Assistant 在 Google Photos 里找到所有黃石公園的照片,Assistant 很快就找到了那些照片。演示者又追加了一句“the ones with animal'(完整語境:黃石公園所有照片里有動物的照片),雖然命令里沒有任何語境,但是 Assistant 仍然正確找到了響應(yīng)的照片。
當(dāng)回復(fù)郵件時,Assistant 還能理解演示者所說的話屬于郵件正文,還是“標(biāo)題:xxx”這樣的命令,并作出對應(yīng)的操作。
全程,演示者沒有觸碰屏幕哪怕一次,所有的任務(wù)都通過語音完成——虛擬助手的執(zhí)行能力和效率已經(jīng)和鋼鐵俠的賈維斯差不多。而且因?yàn)椴恍枰?lián)網(wǎng),現(xiàn)場的演示是在飛行模式下進(jìn)行的(視頻僅為示意):
Google 宣稱,因?yàn)榭梢栽诒镜剡\(yùn)行,新版 Google Assistant 理解和處理請求的速度比當(dāng)前版本快10倍。不僅如此,新版 Google Assistant 的自然語言理解能力比前代有很大增強(qiáng),現(xiàn)在可以連續(xù)追加請求,不用每次都加一句'Hey Google/Ok Google',而且還能跨應(yīng)用程序完成任務(wù)。
可能是因?yàn)閷κ謾C(jī)計(jì)算性能或者特殊硬件有要求,Google 宣布下一代 Pixel 手機(jī)才可以使用新版 Assistant。不過按照慣例,新功能發(fā)布半年到一年之后,因?yàn)?Google 對神經(jīng)網(wǎng)絡(luò)模型的持續(xù)優(yōu)化,老款設(shè)備應(yīng)該也會支持。
對于普通人來說,Google Assistant 的改進(jìn)效果可能并沒有那么顯著,畢竟大部分人都有靈活的雙手,也不一定認(rèn)為語音控制就是最合適的交互方式。但是,對于雙手行動不便的障礙人士,更快的響應(yīng)速度,以及對語音控制的更好支持,意味著當(dāng)他們使用手機(jī)時,也可以享受 AI,享受 Google Assistant 對生活和工作帶來的改善。
3
讓AI對障礙人士一視同仁
在本屆 I/O 上,Google 為障礙人士帶來的福利,可不止上面 Google Assistant 這一條。
關(guān)注科技進(jìn)展的朋友可能都聽說過,即便是在基于神經(jīng)網(wǎng)絡(luò)的人工智能中,也存在偏見 (bias)。這偏見可能來自于 AI 的開發(fā)者,但更多時候原因是結(jié)構(gòu)化的。比方說,作為訓(xùn)練數(shù)據(jù)的有色人種照片太少,訓(xùn)練出的人臉識別系統(tǒng)對有色人種的表現(xiàn)就很差。
同樣,當(dāng)訓(xùn)練語音識別和自然語言理解系統(tǒng)時,我們需要使用大量中文或者英文的高精度語料。但是,許多開發(fā)者沒有想過的是:發(fā)音障礙人士(比如聾啞人)的口頭表達(dá)能力很差,他們的發(fā)音對于普通人來說很難理解——那么,他們就不配享受語音識別和自然語言技術(shù)進(jìn)步帶來的成果嗎?
Google 顯然不這樣認(rèn)為。在 I/O 2019 上,該公司宣布了內(nèi)部正在做的幾個專門解決此類問題的項(xiàng)目。
Project Euphonia 就是這樣一個項(xiàng)目。Google AI 的研究人員和世界上致命的“漸凍人癥”(ALS)救助機(jī)構(gòu)合作,了解患者對于溝通的需求和最大的渴望是什么。研究人員將漸凍人癥患者有限的語句錄下來,轉(zhuǎn)成聲譜圖的視覺形式,將它作為訓(xùn)練數(shù)據(jù)喂給神經(jīng)網(wǎng)絡(luò)。
訓(xùn)練結(jié)果是顯著的。盡管 Project Euphonia 還在科研階段,強(qiáng)化過的語音識別系統(tǒng)對發(fā)音障礙人士的魯棒性已經(jīng)達(dá)到了商業(yè)化產(chǎn)品(比如 YouTube 自動生成字幕)的水平。
但是,每一位障礙人士面臨的障礙千差萬別。比如深度漸凍人癥患者和高位截癱患者,往往連說話的能力都被剝奪,有些人只能發(fā)出“無意義”的聲音,有些人還能做面部表情就已經(jīng)是奇跡。在過去,這些人使用互聯(lián)網(wǎng),只能通過眼球追蹤的鼠標(biāo)/打字板,對交流形成了巨大阻礙。
針對不同的身體和認(rèn)知障礙情況,Project Euphonia 的研究人員找到一種定制化 AI 算法的方式,對聲音、表情進(jìn)行學(xué)習(xí),現(xiàn)在已經(jīng)能夠準(zhǔn)確地理解并傳遞患者想要表達(dá)的內(nèi)容或者情緒,并控制電腦完成對應(yīng)的操作。
在一個演示視頻當(dāng)中,一位十三年深度 ALS 患者 Steve Saling坐在輪椅上看球賽,當(dāng)他支持的隊(duì)伍進(jìn)球時,系統(tǒng)識別到了他的表情,并播放了歡呼和喇叭的音效。
播放完這個演示視頻,Google CEO 頌達(dá)爾·皮柴回到場上,眼眶帶有一點(diǎn)濕潤。
另一個名叫 Live Relay 的功能,在某種程度上和去年的 Duplex 電話機(jī)器人非常相似。它的任務(wù)是幫助聾啞人打電話。
Google 遇到的一個案例是,一位以色列聾啞人怎么都弄不好他的寬帶,但是寬帶公司除了電話之外不支持其他任何客服方式——沒有電郵、短信和打字聊天。而通過 Live Relay,聾啞人獲得了一個能通過語音和對方正常交流的“代理人”,而他自己只需要打字或者用 AI 生成的短語控制這個代理人即可。
有了這個技術(shù),聾啞人也能和其他人通過電話交流了。
在這個 AI 驅(qū)動技術(shù)進(jìn)步的年代,AI 應(yīng)當(dāng)為了所有人而開發(fā),它帶來的進(jìn)步不應(yīng)該只被一小部分人所感受到?!拔覀冃枰_保在神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)中去掉偏見?!逼げ裾f。
如果像 Project Euphonia 這樣的技術(shù)早幾十年誕生,正好趕上霍金的輝煌年代,該有多好?
4
讓每一位普通人的生活更輕松
所有人,當(dāng)然也包括大部分人。盡管對障礙人士格外看重,Google 今年也沒有忘掉普通用戶。
前面提到的 Google Assistant 改進(jìn)、Duplex on the web 技術(shù),其實(shí)對所有人的生活都能帶來改變。除此之外,橫跨 Google 整個產(chǎn)品陣列,在今年的 I/O 大會上都有值得一提的功能更新。
在中國市場上,包括百度在內(nèi)的搜索產(chǎn)品整合相機(jī)拍攝功能已經(jīng)有很長一段時間了。而 Google 在兩年前才在手機(jī)端搜索/相機(jī) app 里整合了 Google Lens 技術(shù)。不過和同類視覺搜索產(chǎn)品相比,Google Lens 的進(jìn)化速度未免有點(diǎn)快……
I/O 2019 大會上,Google Lens 獲得了一個許多用戶可能都用得上的功能:AR 點(diǎn)菜……
聽到名字你可能覺得無聊,點(diǎn)菜就點(diǎn)菜,搞什么 AR?別著急,其實(shí)這個功能蠻簡單也挺有用:在餐館里,對著一張全是文字的菜單拍照,手機(jī)會自動告訴你那幾道菜評價最好,甚至還能給你調(diào)出幾張照片,方便你點(diǎn)菜。
這個功能的背后,生活在西方國家或經(jīng)常出國旅行的中國朋友可能都感同身受:不像中餐館喜歡放圖,很多歐美餐館菜單都是純文字,上面只有菜名和用料,更別提大部分人對用料的英文也一知半解,經(jīng)常出現(xiàn)點(diǎn)完了還不知道自己在吃什么的情況。
而這次 Google 推出這個功能,讓我明白了一點(diǎn):原來不只是中國人,點(diǎn)菜對全世界人民都是個難題啊……
Google Lens 的這個功能,實(shí)現(xiàn)方式其實(shí)很好理解:首先用 GPS 或手機(jī)信號的地理位置記錄來確認(rèn)用戶所在的餐館,然后用光學(xué)字符識別之類的技術(shù)對菜單進(jìn)行索引,再跟 Google Maps/Yelp(美國版大眾點(diǎn)評)上的熱門菜品和評價進(jìn)行比對,最后再把熱門菜品通過 AR 技術(shù)投射在屏幕上。
以后,出門下館子再也不怕點(diǎn)菜了。
小票識別:在美國吃飯大家都喜歡各付各的(=中國的 AA 制),但也會經(jīng)常遇到餐館不收多張卡的情況,再加上小費(fèi),每個人該付多少很不好算。而 Google Lens 現(xiàn)在有了一個新功能,用相機(jī)拍一下小票,Lens 會自動識別金額,按照用戶希望的比例計(jì)算小費(fèi),最后再算出分單的金額——一個挺有用也挺有趣的功能。
通用隱身模式:當(dāng)大家不想自己的瀏覽記錄被追蹤和記錄,特別是瀏覽某些不可名狀網(wǎng)站的時候,都會打開 Chrome 瀏覽器的隱身模式 (incognito mode)。
現(xiàn)在,Google 計(jì)劃更多的產(chǎn)品支持隱身模式。比方說,你臨時需要查看一個 YouTube 視頻,但是不想今后自己的推薦里出現(xiàn)大量類似的視頻,點(diǎn)一個按鈕就可以在 YouTube 里打開隱身模式。目前 YouTube 已經(jīng)支持,不久后 Google Maps 和 Google 搜索也將引入隱身模式。
Federated Learning:簡單來說,用戶的數(shù)據(jù)不上傳,只在本地訓(xùn)練訓(xùn)練一個簡單的獨(dú)立模型→這個模型上傳(不攜帶可識別或不可識別的用戶數(shù)據(jù)),在云端進(jìn)行計(jì)算,整合出一個通用的模型,再下載到用戶的終端設(shè)備上。
這樣做,用戶即能感受到基于深度學(xué)習(xí)的人工智能技術(shù)帶來的好處,又避免了自己的數(shù)據(jù)被上傳。Google 透露,目前 Gboard 輸入法就在采用 federated learning 技巧。
Live Caption:在聲音嘈雜或情況復(fù)雜的環(huán)境里用手機(jī)看視頻,想要聽清楚聲音是不現(xiàn)實(shí)的,傷耳朵,也容易讓自己失去對周遭的感知,無法避免危險(xiǎn)情況出現(xiàn)。所以,我們都喜歡開字幕。
但問題是,不是所有視頻網(wǎng)站都有字幕功能,不是所有內(nèi)容提供者都考慮到觀眾的需求添加了字幕。所以 Google 做了這個功能,基于一個幾十 kb 大小的模型,完全利用手機(jī)本地的計(jì)算能力,能夠?qū)θ魏问謾C(jī)端播放的視頻媒體(Twitter、Instagram、本地視頻等)生成實(shí)時的字幕。
Live Caption 的開關(guān)在音量調(diào)節(jié)的界面里,按一下手機(jī)音量+或者-按鈕就可以看到。該功能將隨 Android Q 在今年夏天推出。
多年以來,驅(qū)動 Google 進(jìn)步的技術(shù),已經(jīng)從搜索變成了 AI。它的用戶群也從北美和全世界的網(wǎng)民,逐漸擴(kuò)展到了更多的人——其中包括其他發(fā)展中國家市場的非網(wǎng)民、文盲和障礙人士——所謂的“下一個十億”。
與此同時,它的使命卻一直沒有改變:整合全球信息,使人人都能訪問并從中受益。(organize the world’s information and make it universally accessible and useful.)
這意味著,Google 的產(chǎn)品和技術(shù),必須可以被所有人使用,并且對所有人有用。而 Google 在 I/O 2019 上發(fā)布的諸多功能,在我看來皆是為了兌現(xiàn)這一承諾。
最近兩年來,Google 將“無障礙使用”(accessiblity) 作為技術(shù)創(chuàng)新的重中之重。如果一個產(chǎn)品無法被所有人所使用,那么它可能不是一個具備同理心的產(chǎn)品,會導(dǎo)致用戶的疏遠(yuǎn),進(jìn)而導(dǎo)致社群的隔閡。
科技以人為本,已經(jīng)不只是諾基亞的口號。包括 Google 在內(nèi),許多頂尖科技公司的使命都和這句話有關(guān)。無論膚色、階層、國籍、身體和認(rèn)知狀態(tài),所有人都可以感受科技帶來的進(jìn)步,我覺得那才是科技進(jìn)步的真正意義。