「AI 技術(shù)生態(tài)論」 人物訪談欄目是 CSDN 發(fā)起的百萬人學(xué) AI 倡議下的重要組成部分。通過對 AI 生態(tài)頂級大咖、創(chuàng)業(yè)者、行業(yè) KOL 的訪談,反映其對于行業(yè)的思考、未來趨勢的判斷、技術(shù)的實(shí)踐,以及成長的經(jīng)歷。
本文為 「AI 技術(shù)生態(tài)論」系列訪談的第十七期,解剖美團(tuán)大腦和美團(tuán)BERT技術(shù),解開美團(tuán)AI的「冰山一角」。
百萬人學(xué) AI 你也有份!今日起點(diǎn)擊閱讀原文報名「2020 AI開發(fā)者萬人大會」,使用優(yōu)惠碼“AIP211”,即可免費(fèi)獲得價值299元的大會在線直播門票一張。限量100張,先到先得!提起美團(tuán),你首先會想到的是什么?是那個帶著醒目黃色的美團(tuán)App,還是每日穿行在大街小巷、為我們送上外賣美食及新鮮水果的的快遞小哥?實(shí)際上,美團(tuán)不僅有這么接地氣的一面,也有特別「高大上」的一面,比如立足于AI技術(shù)的美團(tuán)大腦和美團(tuán)BERT。CSDN(ID:CSDNnews)專訪美團(tuán)AI平臺搜索與NLP部的技術(shù)負(fù)責(zé)人王仲遠(yuǎn)博士,為大家揭曉美團(tuán)在人工智能領(lǐng)域的「冰山一角」。
美團(tuán)大腦打造大規(guī)模餐飲娛樂知識圖譜平臺 王仲遠(yuǎn)表示,美團(tuán)搜索、大眾點(diǎn)評搜索以及NLP中心都是放在一起的。這幾個重要的團(tuán)隊(duì)之所以要放在一起,是因?yàn)樵谒阉髦?,NLP是一個非常關(guān)鍵且核心的技術(shù)。在過去兩年多的時間里,隨著美團(tuán)組織架構(gòu)的不斷升級,美團(tuán)NLP中心也開始和搜索部門并為一體。我們都知道,業(yè)界有非常多的AI Lab和AI平臺,但大家都面臨一個普遍的困境,即AI落地不達(dá)預(yù)期。而美團(tuán)創(chuàng)造性地把AI團(tuán)隊(duì)和業(yè)務(wù)平臺團(tuán)隊(duì)直接放到一起,這就能使技術(shù)在第一時間進(jìn)行驗(yàn)證并快速進(jìn)行落地。截止目前,美團(tuán)及大眾點(diǎn)評的平臺上已有累計超過40億的用戶評價。在以往,這些數(shù)據(jù)只能安靜地躺在數(shù)據(jù)倉庫中「沉睡」,現(xiàn)在王仲遠(yuǎn)帶領(lǐng)團(tuán)隊(duì)通過美團(tuán)的算力和算法,真正讓AI技術(shù)的研究有效地進(jìn)行了落地。具體來說,美團(tuán)除了外賣以外,還涉及到店餐飲、酒店、景點(diǎn)門票和電影票務(wù)等綜合性生活服務(wù)。近期,如果你在美團(tuán)App中搜索「口罩」,就能看到附近藥店,距離你很近的快遞小哥也能像送餐一樣將口罩快速送達(dá)到你的手中。眾所周知,在移動互聯(lián)網(wǎng)之前的PC時代,人們有任何的需求幾乎都會在搜索引擎中去搜索。而在移動互聯(lián)網(wǎng)時代,搜索引擎實(shí)際上已經(jīng)被大大弱化了,其原因就是各種垂直App的數(shù)據(jù)在底層邏輯上并沒有實(shí)現(xiàn)互通。而美團(tuán)憑借自身豐富的業(yè)務(wù)場景,有望打破這種「數(shù)據(jù)」孤立,并借此成為本地生活服務(wù)領(lǐng)域的一個超級App。王仲遠(yuǎn)給我們舉了一個很簡單的例子,當(dāng)用戶在美團(tuán)搜索「水餃」時,他的需求其實(shí)是有很多種可能的:他可能是想叫一份水餃的外賣,也可能是想去店里吃堂食,還有可能是想買附近超市里的冷凍水餃,亦或是想查查水餃的做法,或在美團(tuán)上買水餃的食材。這種多樣的搜索需求,是否都能在一個App實(shí)現(xiàn)呢?是的,美團(tuán)可以滿足這些需求。王仲遠(yuǎn)表示,現(xiàn)在美團(tuán)搜索正在進(jìn)行一項(xiàng)比較重大的改版,預(yù)計在2020年二季度會和大家見面。未來的美團(tuán)搜索,將會成為一個本地生活服務(wù)領(lǐng)域的超級搜索引擎。屆時,用戶可以在美團(tuán)App、大眾點(diǎn)評App上搜索任何關(guān)鍵詞。傳統(tǒng)上,大家會不自覺地在這兩個App上“小心翼翼”地挑選較短的搜索關(guān)鍵詞,比如「火鍋」、「烤串」、「麻辣燙」。但很快,用戶可以隨意表達(dá)他們的搜索需求。例如可以搜索「北京三里屯適合朋友聚餐的西餐廳」,或者「疫情期間最適合遛娃的景點(diǎn)」。這樣的話,用戶的體驗(yàn)會得到非常明顯的提升。這背后是美團(tuán)的NLP能力以及美團(tuán)對于不同業(yè)務(wù)數(shù)據(jù)的高效整合能力在全力支撐。2018 年 5 月,王仲遠(yuǎn)開始領(lǐng)導(dǎo)團(tuán)隊(duì)構(gòu)建美團(tuán)大規(guī)模餐飲娛樂知識圖譜的平臺——美團(tuán)大腦。這個「大腦」充分挖掘、關(guān)聯(lián)各個場景數(shù)據(jù),使用 AI 算法讓機(jī)器「閱讀」用戶針對商戶的公開評論,理解用戶在菜品、價格、服務(wù)、環(huán)境等方面的喜好,構(gòu)建人、店、商品、場景之間的知識關(guān)聯(lián),從而形成一個「知識大腦」。目前,美團(tuán)大腦目前包含了 33 類概念、30 億實(shí)體、1000 億三元組,這個知識關(guān)聯(lián)數(shù)量級已經(jīng)達(dá)到了世界級的規(guī)模。
美團(tuán)BERT訓(xùn)練本地生活服務(wù)模型 2018年10月,Google對外正式發(fā)布BERT模型,這也是自然語言處理領(lǐng)域近年最具突破性的進(jìn)展之一。比爾·蓋茨曾說過:「自然語言處理是人工智能皇冠上的明珠?!瓜敫玫乩斫膺@句話,那么就得先來梳理下AI發(fā)展的脈絡(luò)。王仲遠(yuǎn)歸納說,AI基本可以分為感知階段、認(rèn)知階段和決策階段?;诋?dāng)前AI技術(shù)演進(jìn)趨勢,他重點(diǎn)介紹了對于AI感知和AI認(rèn)知的看法。關(guān)于AI感知,人和動物都擁有視覺和聽覺,這種和大自然的交互,對應(yīng)到AI技術(shù)便是視覺識別和語音識別。關(guān)于AI認(rèn)知,據(jù)聯(lián)合國調(diào)查,世界語言十分復(fù)雜,專家估計大約有5000到7000種。而語言也是人類才有的一種交流工具。這也是NLP的難度,比視覺識別和語音識別更難的原因,所有的語言都是人類創(chuàng)造的,而每一種語言的創(chuàng)造方式都不一樣。這就導(dǎo)致NLP面臨一個巨大的困境,即同一套技術(shù),在中文上有效,在英文上未必有效。比如,分詞就是中文獨(dú)有的,英文根本不需要分詞,因?yàn)樗旧砭褪且詥卧~的形式存在。并且即便同為中國人,對于分詞也會有不同的意見和理解。也正因此,NLP分出很多研究分支。此外,近些年隨著深度學(xué)習(xí)的爆發(fā)式增長,行業(yè)研究者也希望能夠挖掘出人類常用語言中的共同邏輯,這樣就能讓NLP實(shí)現(xiàn)跨語言處理。2018年11月,在Google提出BERT模型一個月后,美團(tuán)于同年11月,成立秘密團(tuán)隊(duì)——美團(tuán)BERT。該團(tuán)隊(duì)成立以來,一直在不斷研究和攻克美團(tuán)在生活服務(wù)領(lǐng)域的技術(shù)難題。2019年,美團(tuán)BERT取得長足的進(jìn)展。該團(tuán)隊(duì)使用幾百塊GPU和獨(dú)有數(shù)據(jù),訓(xùn)練出一個本地生活服務(wù)的模型。帶給用戶的直接感受是,在美團(tuán)和大眾點(diǎn)評中搜索一個詞語,系統(tǒng)的識別性變得越來越高。
MT-BERT整體技術(shù)框架2020年,微軟研究院發(fā)起學(xué)術(shù)評測Citation Intent Recognition,評測要求參賽者根據(jù)論文中對某項(xiàng)科研工作的描述,從論文庫中找出與該描述最匹配的Top3論文,美團(tuán)搜索與NLP部與國內(nèi)兩所高校組隊(duì),提出了一種基于BERT和LightGBM的多模融合檢索排序解決方案,一舉拿下WSDM Cup 2020 Task 1榜單第一名。此外,美團(tuán)知識圖譜組在微軟MARCO比賽中,亦是排名榜首。自2018年比賽發(fā)布以來,知識圖譜組團(tuán)隊(duì)所研發(fā)的深度閱讀理解TABLE模型在比賽指標(biāo) MRR@10上首次突破0.4,而該模型正是基于BERT的Listwise 排序模型,當(dāng)時微軟官方Twitter還專門發(fā)推祝賀美團(tuán)。
這對于王仲遠(yuǎn)以及其團(tuán)隊(duì)來說,都是一種莫大的鼓舞。此外,王仲遠(yuǎn)也曾在國際相關(guān)的學(xué)術(shù)會議上發(fā)表過40多篇論文。盡管工作非常忙,他還是通過各種途徑學(xué)習(xí),比如國際頂級會議上的學(xué)術(shù)論文,他一定會花時間仔細(xì)去閱讀。此外,美團(tuán)技術(shù)團(tuán)隊(duì)內(nèi)部也經(jīng)常有一些前沿技術(shù)分享會他也會不時去參加,通過各種途徑增加新知識。王仲遠(yuǎn)認(rèn)為,人工智能的發(fā)展既快又慢?!缚臁故且?yàn)橹R更新非???,他說自己就曾看到很多面試者因?yàn)橹R沒有跟上時代而慘遭淘汰?!嘎故且?yàn)閺?940年人工智能首次被提出以來,至今經(jīng)過三起三落。2006年深度學(xué)習(xí)誕生,2012年人工智能進(jìn)入爆發(fā)階段,但是至今八年的時間,仍有大量問題還沒有解決。近些年,各大互聯(lián)網(wǎng)廠商都在推出自己的人工智能小助手。這些小助手用來幫大家聽聽音樂、查查天氣以及定下鬧鐘都還可以,但是如果想對它有更大期望,還有很長的一段路要走,很多時候,我們會發(fā)現(xiàn)「人工智能」和「人工智障」有時只是一步之遙。這也說明,在人工智能領(lǐng)域,我們還是有很多技術(shù)亟待突破。這里要特別提一下,王仲遠(yuǎn)博士之所以能對人工智能有這樣深刻的積累和解讀,也是得益于他多年對AI技術(shù)的專注以及積累。
閩地有才子,AI展才華
王仲遠(yuǎn)出生于福建省仙游縣,成長在福建省永安市,得益于父親嚴(yán)厲的管理,再加上強(qiáng)大的自驅(qū)力,從小學(xué)習(xí)就非常優(yōu)秀,經(jīng)常拿到年級第一名。但是王仲遠(yuǎn)的性格,卻帶著一種「寧靜致遠(yuǎn)」的溫和,這點(diǎn)可能是受到性格慈和的母親的影響?!竾?yán)父慈母」的搭配,即讓他的學(xué)習(xí)得到很好的啟蒙。高考后,他順利考入中國人民大學(xué)。在碩士期間,王仲遠(yuǎn)說自己有幸在孟小峰教授領(lǐng)導(dǎo)的WAMDM(網(wǎng)絡(luò)與移動數(shù)據(jù)管理)實(shí)驗(yàn)室做項(xiàng)目,其中一個項(xiàng)目還獲得了SIGMOD07 Undergraduate Scholarship獎項(xiàng),當(dāng)年全球僅有7位獲獎成員。巧合的是,同樣獲得獎項(xiàng)的一位成員,還是王仲遠(yuǎn)日后在Facebook的同事。 碩士畢業(yè)時,王仲遠(yuǎn)冒險地婉拒百度、騰訊和 IBM 等眾多知名公司研究機(jī)構(gòu)的邀請,選擇堅持等待微軟亞洲研究院的Offer。王仲遠(yuǎn)說自己很幸運(yùn),微軟亞洲研究院具備很多先天優(yōu)勢,在剛剛工作時就可以接觸到很多世界級的學(xué)者,了解各領(lǐng)域前沿研究已經(jīng)做到什么程度,無需摸著石頭過河。王仲遠(yuǎn)在微軟亞洲研究院6年多,從校招生一直做到主管研究員,負(fù)責(zé)了微軟研究院知識圖譜項(xiàng)目和對話機(jī)器人項(xiàng)目。他一直專注于自然語言處理、知識圖譜及其在文本理解方面的研究,取得了不少成績,在國際頂級學(xué)術(shù)會議如 VLDB、ICDE、IJCAI、CIKM 等發(fā)表論文 40 余篇,并獲得 ICDE 2015 最佳論文獎。
后來,王仲遠(yuǎn)在前同事的推薦下,遠(yuǎn)程參加了Facebook的面試,為了這次面試,他元旦假期整整準(zhǔn)備了三天的時間。幸運(yùn)的是他還非常順利地拿到了工作簽證,這也讓他得以從國內(nèi)到硅谷工作,去看到更大的一片天空。到硅谷后,他感受到和微軟研究院完全不同的畫風(fēng),F(xiàn)acebook推行「Move Fast」文化,那里甚至沒有測試人員,產(chǎn)品上線極快、基本是一周一次。在 Facebook 工作期間,王仲遠(yuǎn)所負(fù)責(zé)的一個項(xiàng)目是做實(shí)體鏈接,就是要把查詢(Query)和知識圖譜進(jìn)行打通,這也是 NLP 領(lǐng)域一個非常重要的方向。短短半年的時間,效果就提升了80%左右,成為 Facebook內(nèi)部最重要同時也是世界上最先進(jìn)的產(chǎn)品級實(shí)體鏈接服務(wù)?,F(xiàn)在Facebook 的搜索、推薦、廣告、智能助理等許多系統(tǒng)中,也在使用他此前負(fù)責(zé)的這些技術(shù)。幾年以后,王仲遠(yuǎn)感覺中美兩國的人工智能,已經(jīng)來到同一個起跑線上,他帶著技術(shù)報國的想法回到中國,并選擇加入美團(tuán)。他認(rèn)為,AI技術(shù)想真正能夠落地,需要算力,需要數(shù)據(jù),需要算法模型,更需要豐富的應(yīng)用場景。美團(tuán)的應(yīng)用場景豐富程度,遠(yuǎn)超很多互聯(lián)網(wǎng)行業(yè)的同行。2019 年1月21日,《麻省理工科技評論》發(fā)布了 2018 年「35 歲以下科技創(chuàng)新 35 人」(35 Innovators Under 35)中國榜單,王仲遠(yuǎn)獲評為「遠(yuǎn)見者」。這就是王仲遠(yuǎn)的「AI人生」,現(xiàn)在已經(jīng)描摹上濃重的色彩,未來必將更加明艷如春。