免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
LLaMA2上下文長度暴漲至100萬tokens,只需調(diào)整1個(gè)超參數(shù)|復(fù)旦邱錫鵬團(tuán)隊(duì)出品

只需微調(diào)一下,大模型支持上下文大小就能從1.6萬tokens延長至100萬?!

還是在只有70億參數(shù)的LLaMA 2上。

要知道,即使是當(dāng)前最火的Claude 2和GPT-4,支持上下文長度也不過10萬和3.2萬,超出這個(gè)范圍大模型就會(huì)開始胡言亂語、記不住東西。

現(xiàn)在,一項(xiàng)來自復(fù)旦大學(xué)和上海人工智能實(shí)驗(yàn)室的新研究,不僅找到了讓一系列大模型提升上下文窗口長度的方法,還發(fā)掘出了其中的規(guī)律

按照這個(gè)規(guī)律,只需調(diào)整1個(gè)超參數(shù),就能確保輸出效果的同時(shí),穩(wěn)定提升大模型外推性能

外推性,指大模型輸入長度超過預(yù)訓(xùn)練文本長度時(shí),輸出表現(xiàn)變化情況。如果外推能力不好,輸入長度一旦超過預(yù)訓(xùn)練文本長度,大模型就會(huì)“胡言亂語”。

所以,它究竟能提升哪些大模型的外推能力,又是如何做到的?

大模型外推能力提升“機(jī)關(guān)”

這種提升大模型外推能力的方法,和Transformer架構(gòu)中名叫位置編碼的模塊有關(guān)。

事實(shí)上,單純的注意力機(jī)制(Attention)模塊無法區(qū)分不同位置的token,例如“我吃蘋果”和“蘋果吃我”在它眼里沒有差異。

因此需要加入位置編碼,來讓它理解詞序信息,從而真正讀懂一句話的含義。

目前的Transformer位置編碼方法,有絕對(duì)位置編碼(將位置信息融入到輸入)、相對(duì)位置編碼(將位置信息寫入attention分?jǐn)?shù)計(jì)算)和旋轉(zhuǎn)位置編碼幾種。其中,最火熱的要屬旋轉(zhuǎn)位置編碼,也就是RoPE了。

RoPE通過絕對(duì)位置編碼的形式,實(shí)現(xiàn)了相對(duì)位置編碼的效果,但與相對(duì)位置編碼相比,又能更好地提升大模型的外推潛力。

如何進(jìn)一步激發(fā)采用RoPE位置編碼的大模型的外推能力,也成為了最近不少研究的新方向。

這些研究,又主要分為限制注意力調(diào)整旋轉(zhuǎn)角兩大流派。

限制注意力的代表研究包括ALiBi、xPos、BCA等。最近MIT提出的StreamingLLM,可以讓大模型實(shí)現(xiàn)無限的輸入長度(但并不增加上下文窗口長度),就屬于這一方向的研究類型。

圖源作者

調(diào)整旋轉(zhuǎn)角的工作則更多,典型代表如線性內(nèi)插、Giraffe、Code LLaMA、LLaMA2 Long等都屬于這一類型的研究。

圖源作者

以Meta最近爆火的LLaMA2 Long研究為例,它就提出了一個(gè)名叫RoPE ABF的方法,通過修改一個(gè)超參數(shù),成功將大模型的上下文長度延長到3.2萬tokens

這個(gè)超參數(shù),正是Code LLaMA和LLaMA2 Long等研究找出的“開關(guān)”——

旋轉(zhuǎn)角底數(shù)(base)。

只需要微調(diào)它,就可以確保提升大模型的外推表現(xiàn)。

但無論是Code LLaMA還是LLaMA2 Long,都只是在特定的base和續(xù)訓(xùn)長度上進(jìn)行微調(diào),使得其外推能力增強(qiáng)。

是否能找到一種規(guī)律,確保所有用了RoPE位置編碼的大模型,都能穩(wěn)定提升外推表現(xiàn)?

掌握這個(gè)規(guī)律,上下文輕松100w+

來自復(fù)旦大學(xué)和上海AI研究院的研究人員,針對(duì)這一問題進(jìn)行了實(shí)驗(yàn)。

他們先是分析了影響RoPE外推能力的幾種參數(shù),提出了一種名叫臨界維度(Critical Dimension)的概念,隨后基于這一概念,總結(jié)出了一套RoPE外推的縮放法則(Scaling Laws of RoPE-based Extrapolation)。

只需要應(yīng)用這個(gè)規(guī)律,就能確保任意基于RoPE位置編碼大模型都能改善外推能力。

先來看看臨界維度是什么。

從定義中來看,它和預(yù)訓(xùn)練文本長度Ttrain、自注意力頭維度數(shù)量d等參數(shù)都有關(guān)系,具體計(jì)算方法如下:

其中,10000即超參數(shù)、旋轉(zhuǎn)角底數(shù)base的“初始值”。

作者發(fā)現(xiàn),無論放大還是縮小base,最終都能讓基于RoPE的大模型的外推能力得到增強(qiáng),相比之下當(dāng)旋轉(zhuǎn)角底數(shù)為10000時(shí),大模型外推能力是最差的。

對(duì)此論文認(rèn)為,旋轉(zhuǎn)角底數(shù)更小,能讓更多的維度感知到位置信息,旋轉(zhuǎn)角底數(shù)更大,則能表示出更長的位置信息。

既然如此,在面對(duì)不同長度的續(xù)訓(xùn)語料時(shí),究竟縮小和放大多少旋轉(zhuǎn)角底數(shù),才能確保大模型外推能力得到最大程度上的提升?

論文給出了一個(gè)擴(kuò)展RoPE外推的縮放法則,與臨界維度、大模型的續(xù)訓(xùn)文本長度和預(yù)訓(xùn)練文本長度等參數(shù)有關(guān):

基于這一規(guī)律,可以根據(jù)不同預(yù)訓(xùn)練和續(xù)訓(xùn)文本長度,來直接計(jì)算出大模型的外推表現(xiàn),換言之就是預(yù)測大模型的支持的上下文長度。

反之利用這一法則,也能快速推導(dǎo)出如何最好地調(diào)整旋轉(zhuǎn)角底數(shù),從而提升大模型外推表現(xiàn)。

作者針對(duì)這一系列任務(wù)進(jìn)行了測試,發(fā)現(xiàn)實(shí)驗(yàn)上目前輸入10萬、50萬甚至100萬tokens長度,都可以保證,無需額外注意力限制即可實(shí)現(xiàn)外推。

與此同時(shí),包括Code LLaMA和LLaMA2 Long在內(nèi)的大模型外推能力增強(qiáng)工作都證明了這一規(guī)律是確實(shí)合理有效的。

這樣一來,只需要根據(jù)這個(gè)規(guī)律“調(diào)個(gè)參”,就能輕松擴(kuò)展基于RoPE的大模型上下文窗口長度、增強(qiáng)外推能力了。

論文一作柳瀟然表示,目前這項(xiàng)研究還在通過改進(jìn)續(xù)訓(xùn)語料,提升下游任務(wù)效果,等完成之后就會(huì)將代碼和模型開源,可以期待一下~

論文地址:

https://arxiv.org/abs/2310.05209

Github倉庫:

https://github.com/OpenLMLab/scaling-rope

論文解析博客:

https://.comzhihuzhuanlan./p/660073229

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
首個(gè)可商用的32k上下文開源大模型「長頸鹿」來了,兩萬詞長文不在話下
最新本地大模型進(jìn)展#Chinese-LLaMA-2支持16k長上下文
賈佳亞團(tuán)隊(duì)開源全球首個(gè)70B長文本大語言模型,讀論文看小說直接ProMax
不要只盯著ChatGPT了,盤點(diǎn)2023年全球十大大模型,僅開源占了半邊天!
楊利偉:我國可重復(fù)使用載人飛船最早2027年發(fā)射;Meta開源可免費(fèi)商用大模型Llama2,將重塑大模型競爭格局 | 科研圈日?qǐng)?bào)
字節(jié)“開盒”O(jiān)penAI所有大模型,揭秘GPT-3到GPT-4進(jìn)化路徑
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服