在 33 億文本的語料上訓(xùn)練,根據(jù)不同的任務(wù)進(jìn)行微調(diào),最終實(shí)現(xiàn) 11 項(xiàng) NLP 任務(wù)的突破進(jìn)展。這就是谷歌于 2018 年 8 月發(fā)布的 NLP 模型——BERT。
因其強(qiáng)大的預(yù)訓(xùn)練效果,BERT 誕生之后便受到學(xué)術(shù)界、工業(yè)界熱捧,甚至一度被稱為是“地表最強(qiáng) NLP 模型“。
但是,這個(gè) NLP 模型的光環(huán)卻籠罩在訓(xùn)練耗時(shí)的陰影之下:BERT 的預(yù)訓(xùn)練需要很長時(shí)間才能完成,在 16 個(gè) TPUv3 芯片上大約需要三天,對(duì)應(yīng)的計(jì)算資源消耗也會(huì)比較多。因此,BERT 被調(diào)侃為一項(xiàng)“大力出奇跡”的成果。
一直有不同的 AI 研究團(tuán)隊(duì)嘗試縮短其訓(xùn)練時(shí)間,也都取得了相應(yīng)的進(jìn)展。例如,在今年年初,谷歌的研究團(tuán)隊(duì)就曾提出新的優(yōu)化器——LAMB 優(yōu)化器,將訓(xùn)練的 batch size 推到硬件的極限,使用 TPU Pod ( 1024 塊 TPUv3 芯片),成功將BERT的訓(xùn)練時(shí)長從 3 天又縮短到了 76 分鐘。
現(xiàn)在,這個(gè)數(shù)字又被打破。在一場面向媒體的會(huì)議上,英偉達(dá)宣布,使用 DGX SuperPOD 深度學(xué)習(xí)服務(wù)器加之 Tensor RT 5.0 的優(yōu)化,BERT模型最快只需 53 分鐘就能在GPU上完成訓(xùn)練。據(jù)悉,DGX SuperPOD 的運(yùn)算能力能達(dá)到每秒進(jìn)行 9.4 千萬億次浮點(diǎn)運(yùn)算。
對(duì)于 NLP 領(lǐng)域來說,這意味著又一個(gè)新的開始,BERT 等突破性大型 NLP 模型的訓(xùn)練時(shí)長仍有壓縮空間。尤其是在工業(yè)應(yīng)用上,訓(xùn)練時(shí)長的縮短可以直接帶來成本上的節(jié)約,BERT 等突破性模型在規(guī)?;瘧?yīng)用上又減少了一大阻力。
聯(lián)系客服