国产破处在线,717电影网good理论片,日韩毛片在线播放

金磊明敏發(fā)自凹非寺
量子位 | 公眾號 QbitAI

開源最徹底的大模型來了——130億參數(shù)，無需申請即可商用。

不僅如此，它還附帶著把全球最大之一的中文數(shù)據(jù)集也一并開源了出來：600G、1500億tokens！

這就是來自昆侖萬維的Skywork-13B系列，包含兩大版本：

Skywork-13B-Base：該系列的基礎(chǔ)模型，在多種基準(zhǔn)評測中都拔得頭籌的那種。
Skywork-13B-Math：該系列的數(shù)學(xué)模型，數(shù)學(xué)能力在GSM8K評測上得分第一。

在各大權(quán)威評測benchmark上，如C-Eval、MMLU、CMMLU、GSM8K，可以看到Skywork-13B在中文開源模型中處于前列，在同等參數(shù)規(guī)模下為最優(yōu)水平。

而Skywork-13B系列之所以能取得如此亮眼的成績，部分原因離不開剛才我們提到的數(shù)據(jù)集。

畢竟清洗好的中文數(shù)據(jù)對于大模型來說可謂是至關(guān)重要，幾乎從某種程度上決定了其性能。

但昆侖萬維能將如此“至寶”無償?shù)亟o奉獻出來，不難看出它對于構(gòu)建開源社區(qū)、服務(wù)開發(fā)者的慢慢誠意。

除此之外，昆侖萬維Skywork-13B此次還配套了“輕量版”大模型，是在消費級顯卡中就能部署和推理的那種！

Skywork-13B下載地址（Model Scope）：
https://modelscope.cn/organization/skywork

Skywork-13B下載地址（Github）：
https://github.com/SkyworkAI/Skywork

接下來，我們進一步來看下Skywork-13B系列更多的能力。

無需申請即可商用

Skywork-13B系列大模型擁有130億參數(shù)、3.2萬億高質(zhì)量多語言訓(xùn)練數(shù)據(jù)。

由此，模型在生成、創(chuàng)作、數(shù)學(xué)推理等任務(wù)上提升明顯。

首先在中文語言建模困惑度評測中，Skywork-13B系列大模型超越了目前所有中文開源模型。

在科技、金融、政務(wù)、企業(yè)服務(wù)、文創(chuàng)、游戲等領(lǐng)域均表現(xiàn)出色。

另外，Skywork-13B-Math專長數(shù)學(xué)任務(wù)，進行過數(shù)學(xué)能力強化訓(xùn)練，在GSM8K等數(shù)據(jù)集中取得了同等規(guī)模模型最佳效果。

與此同時，昆侖萬維還開源了數(shù)據(jù)集Skypile/Chinese-Web-Text-150B。其數(shù)據(jù)是通過精心過濾的數(shù)據(jù)處理流程從中文網(wǎng)頁中篩選而來。

由此，開發(fā)者可以最大程度借鑒技術(shù)報告中大模型預(yù)訓(xùn)練的過程和經(jīng)驗，深度定制模型參數(shù)，進行針對性訓(xùn)練與優(yōu)化。

除此之外，Skywork-13B還公開了模型使用的評估方法、數(shù)據(jù)配比研究和訓(xùn)練基礎(chǔ)設(shè)施調(diào)優(yōu)方案等。

而Skywork-13B的一系列開源，無需申請即可商用！

用戶在下載模型并同意遵守《Skywork模型社區(qū)許可協(xié)議》后，不用再次申請商業(yè)授權(quán)。

授權(quán)流程也取消了對行業(yè)、公司規(guī)模、用戶數(shù)量等方面限制。

昆侖萬維會如此徹底開源其實也并不意外。

昆侖萬維董事長兼CEO方漢是最早參與到開源生態(tài)建設(shè)的老兵了，也是中文Linux開源最早的推動者之一。

在今年ChatGPT趨勢剛剛興起時，他就多次公開發(fā)聲、強調(diào)開源的重要性：

代碼開源可助力中國版ChatGPT彎道超車。

所以也就不難理解Skywork-13B系列大模型的推出了。

所以，Skywork-13B系列開源工作，具體是如何實現(xiàn)的呢？

更“瘦”結(jié)構(gòu)、更全數(shù)據(jù)

Skywork-13B的技術(shù)細節(jié)可以從四方面看起：

模型結(jié)構(gòu)
訓(xùn)練數(shù)據(jù)
訓(xùn)練方法
評估方法

首先在結(jié)構(gòu)上，Skywork-13B相比Llama2-13B，更加“瘦長”，模型層數(shù)為52。

這樣做的好處是能在大Batch Size訓(xùn)練下取得更好泛化效果。

同時將FFN Dim縮小到12288和4608，可以保證模型參數(shù)量和原始Llama2-13B模型相當(dāng)。

具體Skywork-13B和Llama2-13B對比如下：

其次在數(shù)據(jù)方面，昆侖萬維也公開了英文、中文、代碼數(shù)據(jù)的比例。

可以看到中英文部分吸收了大量網(wǎng)頁數(shù)據(jù)和社交媒體數(shù)據(jù)，同時兼顧了相對專業(yè)的方面，比如學(xué)術(shù)論文、年報、文書等。

代碼方面則主要從GitHub上吸收數(shù)據(jù)。

在訓(xùn)練方法方面，Skywork-13B也是完全開源。

訓(xùn)練共有兩個階段：

第一階段使用通用語料進行通用能力學(xué)習(xí)，第二部分加入STEM（科學(xué)，技術(shù)，工程，數(shù)學(xué)）相關(guān)數(shù)據(jù)進一步增強模型的推理能力、數(shù)學(xué)能力、問題解決能力。

這樣做的好處是能更加精細化利用數(shù)據(jù)。

最后在模型評估方面，昆侖萬維給出了領(lǐng)域數(shù)據(jù)困惑度評估方法。

大語言模型訓(xùn)練的本質(zhì)是讓預(yù)測的下一個詞（個體）更加準(zhǔn)確。

昆侖萬維認(rèn)為評估基礎(chǔ)大模型的一個重要方式，就是評估在各個領(lǐng)域中，大語言模型生成文章（整體）的概率。

一般模型預(yù)測下一個詞的概率會使用Cross Entropy損失函數(shù)，整體的損失函數(shù)為每個位置預(yù)測真實詞損失的平均：

n表示文檔長度（token數(shù)量），p_i是位置i上真實詞的概率。

將文檔中每個位置上真實詞的概率連乘，則為生成文檔整體的概率。

這樣一來，就能將loss和生成文章的概率聯(lián)系在一起了。

而由于不同模型使用的分詞器不同，token數(shù)量不同，因此對損失函數(shù)乘以token數(shù)目n，這樣就能僅考慮生成文章的概率部分，不同模型也可以進行比較。

將標(biāo)準(zhǔn)化后loss取指數(shù)轉(zhuǎn)換成perplexity（困惑），可以使模型的差異更加可讀。

基于如上分析，昆侖萬維在多個領(lǐng)域篩選出了這個月發(fā)表的成百上千篇高質(zhì)量文章（2023年10月），并進行人工核對。

選擇最新的數(shù)據(jù)，為的是保證測試數(shù)據(jù)不在所有評估大模型的訓(xùn)練集范圍內(nèi)。

如下是最后評估結(jié)果，可以看到Skywork-13B表現(xiàn)突出。

如何評價？

對于昆侖萬維此次的開源發(fā)布，可以說它主打的就是個“敢”。

畢竟能將大模型背后的利器——高質(zhì)量數(shù)據(jù)集，能夠如此毫不避諱地放出來共享，放眼全球范圍都是寥寥無幾的存在。

而若是將時間線拉開來看，我們就不難理解昆侖萬維是怎么這么“敢”的了。

早在今年年初、全球各大廠商大模型“爭奇斗艷”白熱化階段，昆侖萬維就以黑馬的姿態(tài)直接殺入百模大戰(zhàn)。

首發(fā)就敢以現(xiàn)場直播、實時演示的方式，讓天工參加自家程序員面試，并且很流暢地通過了第一關(guān)：

而且除了面試題之外，昆侖萬維還敢直面彈幕中網(wǎng)友們現(xiàn)場提出的各種刁鉆問題：

在接下來的時間里，昆侖萬維還保持著數(shù)月一迭代的優(yōu)化，讓語義理解、推理等任務(wù)變得更加絲滑。

并且在8月底，昆侖萬維率先在國內(nèi)推出了第一款融入大模型能力的AI搜索。

是當(dāng)時刨除插件形式之外，第一個敢將大模型能力投入應(yīng)用的獨立AI搜索產(chǎn)品。

而在短短2個月后，昆侖萬維又將最新的大模型、最新的數(shù)據(jù)集，一并發(fā)布且開源，可以說它的一切動作不僅在于快，更是在于敢。

那么接下來的問題是——為什么要這么做？

其實，對于AIGC這一板塊，昆侖萬維早在2020年便已經(jīng)開始涉足，早早的準(zhǔn)備和技術(shù)積累就是它能夠在大熱潮來臨之際快速跟進的原因之一。

據(jù)了解，昆侖萬維目前已形成AI大模型、AI搜索、AI游戲、AI音樂、AI動漫、AI社交六大AI業(yè)務(wù)矩陣。

至于不遺余力的將開源這事做好做大，一方面是源于企業(yè)的基因。

昆侖萬維董事長兼CEO方漢是最早參與到開源生態(tài)建設(shè)的開源老兵，也是中文Linux開源最早的推動者之一，開源的精神和AIGC技術(shù)的發(fā)展早已在昆侖萬維戰(zhàn)略中完美融合。

正如方漢此前所言：

昆侖天工之所以選擇開源，因為我們堅信開源是推動AIGC生態(tài)發(fā)展的土壤和重要力量。昆侖萬維致力于在AIGC模型算法方面的技術(shù)創(chuàng)新和開拓，致力于推進開源AIGC算法和模型社區(qū)的發(fā)展壯大，致力于降低AIGC技術(shù)在各行各業(yè)的使用和學(xué)習(xí)門檻。

沒錯，降低門檻，便是其堅持開源的另一大原因。

從昆侖萬維入局百模大戰(zhàn)以來的種種動作中，也很容易看到它正在踐行著讓天工用起來更簡單、更絲滑。

總而言之，昆侖萬維目前已然是處于國產(chǎn)大模型的第一梯隊，甚至說是立于金字塔尖都不足為過。

那么在更大力度的開源加持之下，天工大模型還將有怎樣驚艷的表現(xiàn)，是值得期待一波了。

— 完 —

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

金磊 明敏 發(fā)自 凹非寺量子位 | 公眾號 QbitAI

無需申請即可商用

更“瘦”結(jié)構(gòu)、更全數(shù)據(jù)

如何評價？

金磊明敏發(fā)自凹非寺
量子位 | 公眾號 QbitAI

更“瘦”結(jié)構(gòu)、更全數(shù)據(jù)