一级片在线免费播放,国产亚洲蜜芽精品久久,一级毛片美国aaj毛片

賈佳亞團(tuán)隊(duì)開(kāi)源全球首個(gè)70B長(zhǎng)文本大語(yǔ)言模型，讀論文看小說(shuō)直接ProMax

skysun000001 >《科學(xué)技術(shù)衛(wèi)生健康養(yǎng)生養(yǎng)老體育環(huán)?！?/a>

2023.10.09 北京

關(guān)注

家人們，苦長(zhǎng)文本久矣的大語(yǔ)言模型（LLM），現(xiàn)在終于有解法了！

就在最近，香港中文大學(xué)賈佳亞團(tuán)隊(duì)聯(lián)合MIT宣布了一項(xiàng)新研究，一舉打破如此僵局：

發(fā)布全球首個(gè)70B參數(shù)的長(zhǎng)文本開(kāi)源大語(yǔ)言模型——LongAlpaca。

值得注意的是，這次團(tuán)隊(duì)開(kāi)源的LongAlpaca不止是一個(gè)單一的大語(yǔ)言模型，實(shí)則是一個(gè)系列，包括：

中杯：LongAlpaca-7B
大杯：LongAlpaca-13B
超大杯：LongAlpaca-70B

而在它們完整訓(xùn)練和評(píng)測(cè)的背后，更為關(guān)鍵的是研究團(tuán)隊(duì)精挑細(xì)選、千錘百煉得來(lái)的長(zhǎng)文本數(shù)據(jù)集LongAlpaca-12k。

并且在自研的大語(yǔ)言模型文本長(zhǎng)度拓展方案LongLoRA的加持之下，在最終的結(jié)果上取得了驚艷的成績(jī)——

只需兩行代碼、一臺(tái)8卡A100機(jī)器，便可將7B模型的文本長(zhǎng)度拓展到100k tokens，70B模型的文本長(zhǎng)度拓展到32k tokens。

要知道，現(xiàn)在主流的大語(yǔ)言模型都只支持短文本的輸入（LLaMa支持2k tokens、Llama2支持4k tokens）；而我們?cè)趯?shí)際使用的過(guò)程中往往需要的是長(zhǎng)文本的輸入。

例如讓大語(yǔ)言模型去解讀一本小說(shuō)的劇情，再如讓它幫你分析一篇論文等等。

而以往開(kāi)源大語(yǔ)言模型要想拓展文本的長(zhǎng)度，基本上就是堆算力，動(dòng)輒消耗100塊以上的GPU或TPU的那種。

不僅計(jì)算資源上的消耗巨大，更是由于缺少專(zhuān)精的數(shù)據(jù)集，使得長(zhǎng)文本輸入得到結(jié)果也并非那么理想。

這也就是開(kāi)頭我們提到“苦長(zhǎng)文本久矣”的由來(lái)了。

那么賈佳亞領(lǐng)銜的研究團(tuán)隊(duì)發(fā)布的LongAlpaca的效果具體又是如何呢？

現(xiàn)在一同來(lái)體驗(yàn)下。

“全球首個(gè)”的一手體驗(yàn)

既然是一手體驗(yàn)，我們主打的就是要把LongAlpaca從方方面面來(lái)個(gè)評(píng)測(cè)。

分析某篇論文獲獎(jiǎng)原因

首先我們小試牛刀一下，將一篇ICLR的Oral論文（共12487 tokens）“投喂”給LongAlpaca，讓它幫忙分析一下獲獎(jiǎng)原因。

一篇論文的文本長(zhǎng)度定然不會(huì)是像我們平時(shí)提問(wèn)普通問(wèn)題那般簡(jiǎn)短，而且通篇的文字在邏輯上也是環(huán)環(huán)相扣，極具嚴(yán)謹(jǐn)性。

而LongAlpaca在面對(duì)如此專(zhuān)業(yè)性的論文，依舊是給出了較為完美的回答，分別從論文提出方法的新穎性、框架的綜合評(píng)價(jià)，以及實(shí)驗(yàn)結(jié)果等關(guān)鍵要素進(jìn)行了分析。

最后的總結(jié)是：

總而言之，這篇論文獲獎(jiǎng)的關(guān)鍵原因是所提出的Domino方法和評(píng)估框架的新穎性、有效性和通用性，推動(dòng)了切片發(fā)現(xiàn)的最新進(jìn)展。全面的實(shí)驗(yàn)評(píng)估和定量分析為支持概念貢獻(xiàn)提供了強(qiáng)有力的經(jīng)驗(yàn)證據(jù)。

根據(jù)兩篇論文分析會(huì)議風(fēng)格的區(qū)別

從第一個(gè)評(píng)測(cè)內(nèi)容來(lái)看，LongAlpaca對(duì)于一篇論文內(nèi)容長(zhǎng)度的處理上是完全拿捏的。

那么如果“投喂”兩篇，還是對(duì)比著來(lái)看的那種，它是否依舊能hold住呢？

話不多說(shuō)，直接“丟進(jìn)去”：

根據(jù)這兩篇論文，比較一下兩個(gè)會(huì)議的區(qū)別（共25802 tokens）。

同樣的，LongAlpaca依舊是從多個(gè)角度，方方面面地去回答這個(gè)問(wèn)題——

論文的結(jié)構(gòu)、技術(shù)的深度、理論與實(shí)驗(yàn)、表示法，甚至是文章的語(yǔ)言風(fēng)格，都給出了具體的分析結(jié)果。

最后LongAlpaca給出的結(jié)論是：

CVPR的文章風(fēng)格更加具備結(jié)構(gòu)化和實(shí)驗(yàn)性，專(zhuān)注于描述一種計(jì)算機(jī)視覺(jué)任務(wù)的方法。
ICLR論文風(fēng)格則是更靈活，專(zhuān)注于證明元學(xué)習(xí)見(jiàn)解的關(guān)鍵公式和理論分析。

提問(wèn)名著章節(jié)

在感受完LongAlpaca對(duì)于論文的分析之后，我們繼續(xù)來(lái)看下它能否拿捏更具戲劇性的小說(shuō)名著。

把《西游記》的節(jié)選片段（共36870 tokens）丟進(jìn)去，并提問(wèn)：

在《西游記》中，孫悟空為什么在大鬧天宮時(shí)期很厲害，但取經(jīng)路上卻屢屢受挫？

LongAlpaca按照《西游記》的故事時(shí)間線，分析了在大鬧天宮時(shí)孫悟空的傲慢，后來(lái)被佛祖限制了能力，以及沿途的妖怪越發(fā)強(qiáng)大等種種的原因。

總結(jié)來(lái)說(shuō)就是：

強(qiáng)大的對(duì)手、對(duì)他力量的限制、欺騙和缺乏同伴是他在旅途中失敗的最初原因；但隨著時(shí)間的推移，他獲得了智慧、經(jīng)驗(yàn)和戰(zhàn)友，使他最終能夠戰(zhàn)勝更為強(qiáng)大的敵人。

與Llama 2同臺(tái)競(jìng)技

在自身縱向的各項(xiàng)評(píng)測(cè)后，定然也是少不了橫向的比較。

那么跟大語(yǔ)言模型開(kāi)源界炙手可熱的Llama 2相比，LongAlpaca的表現(xiàn)又會(huì)如何呢？

這輪我們派出的是“大杯”——LongAlpaca-13B選手，向它提出的問(wèn)題是：

根據(jù)《三體》第一部中的章節(jié)（共32252 tokens），葉文潔為什么要聯(lián)系外星人，而后期又為什么后悔？

LongAlpaca-13B可以說(shuō)是較為精準(zhǔn)地給出了答案：

葉文潔最初與外星人的接觸既是出于理想主義，也是出于復(fù)仇，但隨著時(shí)間的推移，她對(duì)人性的看法發(fā)生了變化，她意識(shí)到自己可能給全人類(lèi)帶來(lái)了危險(xiǎn)，她的遺憾也隨之增加。

反觀Llama 2這邊，同樣是13B量級(jí)的大語(yǔ)言模型，做出的回答就有些差強(qiáng)人意了，大部分文字并沒(méi)有圍繞問(wèn)題本身。

只是簡(jiǎn)單的提了一句：

最后她感到后悔，因?yàn)樗庾R(shí)到她的行為導(dǎo)致了她從未想過(guò)的后果。

總而言之，從種種的評(píng)測(cè)表現(xiàn)來(lái)看，LongAlpaca在處理長(zhǎng)文本輸入的難題上確實(shí)是做到了較大優(yōu)化。

那么接下來(lái)的一個(gè)問(wèn)題便是：

怎么做到的？

左手抓數(shù)據(jù)，右手抓策略，這便是LongAlpaca的應(yīng)對(duì)之道。

在數(shù)據(jù)方面，正如我們剛才提到的，訓(xùn)練長(zhǎng)文本大語(yǔ)言模型的難點(diǎn)一方面在于缺少公開(kāi)的長(zhǎng)文本對(duì)話數(shù)據(jù)。

而且此前長(zhǎng)文本模型的訓(xùn)練，大多是在非對(duì)話的語(yǔ)料上用 “next-token-generation”的方式進(jìn)行繼續(xù)預(yù)訓(xùn)練。

這種方式雖然能夠align模型對(duì)于長(zhǎng)文本的位置編碼格式，但缺點(diǎn)也很明顯，就是很難讓模型有較好的對(duì)話能力。

因此，賈佳亞團(tuán)隊(duì)收集了9k條長(zhǎng)文本問(wèn)答語(yǔ)料對(duì)，包含針對(duì)名著、論文、深度報(bào)道甚至財(cái)務(wù)報(bào)表的各類(lèi)問(wèn)答。

其中，論文相關(guān)問(wèn)答最為詳細(xì)，包括了“審稿”、“論文對(duì)比”、“會(huì)議風(fēng)格對(duì)比”、“修改意見(jiàn)”，以及針對(duì)論文內(nèi)容的提問(wèn)等。

但畢竟揚(yáng)了“長(zhǎng)”也不能忘了“短”，因此賈佳亞團(tuán)隊(duì)還從原有的Alpaca數(shù)據(jù)集中挑選了3k左右的短問(wèn)答語(yǔ)料混合訓(xùn)練。

最終，也就成功構(gòu)建了我們前文提到的LongAlpaca-12k。

接下來(lái)，便是策略層面。

正如我們剛才提到的，此前在大語(yǔ)言模型長(zhǎng)文本輸入問(wèn)題上，另一個(gè)老大難的問(wèn)題便是計(jì)算資源消耗量巨大。

具體而言，主要就是集中在了自注意力機(jī)制（self-attention）的計(jì)算上——開(kāi)銷(xiāo)隨著文本長(zhǎng)度成平方次地增加。

因此，研究團(tuán)隊(duì)以此作為突破口，提出了在研的大語(yǔ)言模型文本長(zhǎng)度拓展方案LongLoRA；與此同時(shí)，還采用了分組和偏移的方式來(lái)對(duì)全局自注意力機(jī)制進(jìn)行模擬。

△LongLoRA設(shè)計(jì)概覽

其中，LongLoRA具體的關(guān)鍵技術(shù)點(diǎn)就是shift short attention，我們姑且稱(chēng)之為偏置短注意力。

它的核心思想就是用sparse local attention（稀疏局部注意力）替換掉dense global attention（密集全局注意力）。

大概可以理解為檢索時(shí)的思想，只需要將匹配度、相似性高的centext拿過(guò)來(lái)用即可。

如此一來(lái)便可以大幅降低計(jì)算資源的消耗了。

△shift short attention示意圖

更重要的一點(diǎn)是，LongLoRA的訓(xùn)練只需要2行代碼即可實(shí)現(xiàn)！

此外，LongLoRA還探索了低秩訓(xùn)練的方式。原有的低秩訓(xùn)練方式，如LoRA，無(wú)法在文本長(zhǎng)度遷移上取得良好的效果。

而LongLoRA在低秩訓(xùn)練的基礎(chǔ)上，引入嵌入層（Embedding layer和 Normalization layers）進(jìn)行微調(diào)，從而達(dá)到可以和全參數(shù)微調(diào)（Full fine-tune）逼近的效果。

對(duì)于8k長(zhǎng)度的模型訓(xùn)練，相比于全參數(shù)微調(diào)，LongLoRA將顯存消耗從46.3GB降低到25.6GB。

對(duì)于64k長(zhǎng)度的模型訓(xùn)練，相比于常規(guī)LoRA，LongLoRA將訓(xùn)練時(shí)間從90～100小時(shí)左右降低到52.4小時(shí)。

△全參數(shù)微調(diào)、常規(guī)LoRA和LongLoRA的性能比較

值得一提的是，LongLoRA在各類(lèi)語(yǔ)言任務(wù)上，包括文本建模（Proof-pile、PG-19）、信息檢索（topic retrieval, passkey retrieval），都展現(xiàn)了優(yōu)異的性能。

并且LongLoRA可以?xún)H在一臺(tái)8卡A100機(jī)器上將7B模型的文本長(zhǎng)度拓展到100k tokens，將70B模型的文本長(zhǎng)度拓展到32k tokens，并且保持出色的語(yǔ)言建模性能。

如何部署？

對(duì)于如此“快、好、省”的項(xiàng)目，你是不是迫不及待地想要嘗鮮了呢？

現(xiàn)在，它已經(jīng)在GitHub上開(kāi)源，并給出了十分詳細(xì)的部署教程。

例如在安裝方面，僅需要簡(jiǎn)單六步：

1、在GitHub中fork這個(gè)repo。

2、在本地機(jī)器上克隆存儲(chǔ)庫(kù)，使用git Clone并粘貼此項(xiàng)目的url。

3、運(yùn)行如下代碼：

pip install -r requirements.txt
pip install flash-attn --no-build-isolation

4、根據(jù)偏好，使用“已發(fā)布模型”和“微調(diào)模型”。

5、通過(guò)對(duì)話測(cè)試模型。

6、部署到自己的demo。

以及還有各種“杯型”的模型、訓(xùn)練過(guò)程代碼等等，團(tuán)隊(duì)都在GitHub項(xiàng)目中詳細(xì)地展示了出來(lái)。

有需求的小伙伴可戳下方鏈接自取了~

GitHub項(xiàng)目地址：
https://github.com/dvlab-research/LongLoRA

論文地址：
https://browse.arxiv.org/pdf/2309.12307.pdf

— 完 —

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類(lèi)似文章

2行代碼，「三體」一次讀完！港中文賈佳亞團(tuán)隊(duì)聯(lián)手MIT發(fā)布超長(zhǎng)文本擴(kuò)展技術(shù)，打破LLM遺忘魔咒

LLaMA2上下文長(zhǎng)度暴漲至100萬(wàn)tokens，只需調(diào)整1個(gè)超參數(shù)｜復(fù)旦邱錫鵬團(tuán)隊(duì)出品

Prompt范式，真香

BD-筆記-震撼，支持多模態(tài)模型的ChatGPT 4.0發(fā)布了

1000000000！微軟改進(jìn)Transformer一次能記住這么多token了

可用數(shù)據(jù)存量不足，還能怎樣向AI模型注入人類(lèi)智能？

更多類(lèi)似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版