免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
合成數(shù)據(jù):前世今生

導(dǎo)語(yǔ)

Sora橫空出世,又一次引爆了科技圈。我們?cè)谔綄の纳曨l大模型的又一次出圈背后,除了算力、算法的不斷演進(jìn)迭代外,數(shù)據(jù)依然是繞不開(kāi)的話題。據(jù)分析,OpenAI在訓(xùn)練過(guò)程使用了部分由游戲引擎生成的合成視頻作為訓(xùn)練集。當(dāng)然,合成數(shù)據(jù)并不只用于文生視頻大模型上,在大語(yǔ)言模型上也早有應(yīng)用。伴隨著大模型不斷發(fā)展,合成數(shù)據(jù)有望成為未來(lái)各類模型訓(xùn)練的關(guān)鍵數(shù)據(jù),加速推動(dòng)大模型在多領(lǐng)域、多產(chǎn)業(yè)落地應(yīng)用。

本系列推送將分為三篇,嘗試回答合成數(shù)據(jù)的一些關(guān)鍵問(wèn)題。在上篇《合成數(shù)據(jù):前世今生》,我們會(huì)重點(diǎn)關(guān)注為什么要用到合成數(shù)據(jù)?合成數(shù)據(jù)是什么?在中篇《合成數(shù)據(jù):大模型訓(xùn)練和應(yīng)用的新方案》,將討論合成數(shù)據(jù)如何作用于大模型訓(xùn)練?合成數(shù)據(jù)能否替代真實(shí)數(shù)據(jù)?合成數(shù)據(jù)在大模型和推薦系統(tǒng)中如何應(yīng)用?在下篇《合成數(shù)據(jù):治理之智》,我們會(huì)基于合成數(shù)據(jù)的價(jià)值和風(fēng)險(xiǎn),討論合成數(shù)據(jù)可及性和安全性問(wèn)題,并給出合成數(shù)據(jù)治理的相關(guān)政策建議。

一、合成數(shù)據(jù)帶來(lái)的思考

在生成式人工智能技術(shù)不斷發(fā)展的趨勢(shì)下,訓(xùn)練數(shù)據(jù)來(lái)源是人們最關(guān)心的問(wèn)題之一。在已經(jīng)使用的訓(xùn)練語(yǔ)料中,有用于語(yǔ)言大模型訓(xùn)練的文本數(shù)據(jù),包括網(wǎng)頁(yè)信息、書(shū)籍、科研論文、知識(shí)百科、專業(yè)問(wèn)答、代碼、以及領(lǐng)域知識(shí),也有用于多模態(tài)模型的圖片、視頻、音頻等媒體數(shù)據(jù)。根據(jù)Epoch AI的估算,書(shū)籍、科研論文等高質(zhì)量語(yǔ)言數(shù)據(jù)集可能會(huì)在2024年前耗盡。人們正在積極探索新數(shù)據(jù)源,以緩解訓(xùn)練語(yǔ)料可能面臨不足的問(wèn)題。一種思路是將未數(shù)字化的知識(shí)數(shù)字化,如在最新發(fā)布的Claude 3中,提到了將大量未數(shù)字化的書(shū)籍和資料做OCR生成,成為模型可讀取的訓(xùn)練語(yǔ)料。還可利用機(jī)器感知數(shù)據(jù),比如將無(wú)人車、無(wú)人機(jī)、其他智能硬件設(shè)備等生成的大量物理世界數(shù)據(jù)用于訓(xùn)練。另一種思路是利用模型或算法,批量生成新數(shù)據(jù),比如合成數(shù)據(jù),然后利用它們訓(xùn)練模型。

近期,合成數(shù)據(jù)在大模型訓(xùn)練和應(yīng)用的話題引起了廣泛關(guān)注。一方面,高質(zhì)量的合成數(shù)據(jù)可以作為真實(shí)數(shù)據(jù)的補(bǔ)充和替代,模擬現(xiàn)實(shí)世界的復(fù)雜性和多樣性,被視為擴(kuò)展模型學(xué)習(xí)范圍與能力的重要手段。另一方面,合成數(shù)據(jù)的生成過(guò)程可能存在偏差或噪聲,導(dǎo)致其質(zhì)量和真實(shí)性無(wú)法完全模擬客觀世界。由此引出一系列值得深入討論的問(wèn)題:對(duì)于合成數(shù)據(jù)的價(jià)值,它能否拓展大模型能力的邊界?又是否能替代真實(shí)數(shù)據(jù),緩解優(yōu)質(zhì)數(shù)據(jù)供給不足的問(wèn)題?此外,合成數(shù)據(jù)能否通過(guò)對(duì)現(xiàn)有數(shù)據(jù)的深加工,將之前不能被用于訓(xùn)練的數(shù)據(jù)轉(zhuǎn)化為可用,提升模型對(duì)數(shù)據(jù)利用的可能性?而對(duì)于合成數(shù)據(jù)的風(fēng)險(xiǎn),人們也會(huì)擔(dān)憂是否會(huì)出現(xiàn)“大模型自己產(chǎn)生數(shù)據(jù)進(jìn)行自我訓(xùn)練”的循環(huán),導(dǎo)致初始偏差被不斷放大,最終使模型失控?這種新數(shù)據(jù)源還會(huì)帶來(lái)哪些新風(fēng)險(xiǎn)?

二、什么是合成數(shù)據(jù)?

合成數(shù)據(jù)(Synthetic Data)是通過(guò)算法和數(shù)學(xué)模型創(chuàng)建的。首先建模真實(shí)數(shù)據(jù)的分布,然后在該分布上進(jìn)行采樣,創(chuàng)建出新數(shù)據(jù)集,模擬真實(shí)數(shù)據(jù)中的統(tǒng)計(jì)模式和關(guān)系。合成數(shù)據(jù)類似于數(shù)據(jù)的“替身演員”,發(fā)揮補(bǔ)充或替代真實(shí)數(shù)據(jù)的作用。在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,合成數(shù)據(jù)可以為模型提供訓(xùn)練材料,幫助它們學(xué)習(xí)、理解和預(yù)測(cè)。

與合成數(shù)據(jù)相關(guān)性較高的另一種技術(shù)是數(shù)據(jù)增強(qiáng)(Data Augmentation)。兩者目的都是為了提高模型的性能和泛化能力,但它們?cè)趯?shí)現(xiàn)這一目標(biāo)時(shí)采取了不同的方法。合成數(shù)據(jù)涉及到創(chuàng)建全新的數(shù)據(jù)點(diǎn),是從頭開(kāi)始生產(chǎn)的;而數(shù)據(jù)增強(qiáng)則是在已有數(shù)據(jù)的基礎(chǔ)上進(jìn)行修改以產(chǎn)生新的變體。在NLP領(lǐng)域,合成數(shù)據(jù)可以通過(guò)使用生成式模型基于現(xiàn)有數(shù)據(jù)生成新句子來(lái)創(chuàng)建;如當(dāng)現(xiàn)實(shí)世界的數(shù)據(jù)有限或不平衡時(shí),可以使用合成數(shù)據(jù)來(lái)訓(xùn)練模型進(jìn)行文本分類。而NLP中的數(shù)據(jù)增強(qiáng)技術(shù)包括同義詞替換、隨機(jī)刪除、隨機(jī)插入和文本換行等。

這兩種方法也不是解決數(shù)據(jù)問(wèn)題的萬(wàn)能藥。如果生成過(guò)程設(shè)計(jì)不當(dāng),合成數(shù)據(jù)也可能缺乏保真度,對(duì)客觀世界的模擬出現(xiàn)偏差。而數(shù)據(jù)增強(qiáng)通常會(huì)受限于原始訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。

三、為什么需要用到合成數(shù)據(jù)?

什么情況下會(huì)用到合成數(shù)據(jù)?本質(zhì)原因是真實(shí)世界中獲取數(shù)據(jù)遇到困難。一是真實(shí)世界中難以觀測(cè),如罕見(jiàn)病或極端天氣等。利用合成數(shù)據(jù)可以設(shè)計(jì)比真實(shí)數(shù)據(jù)集更廣泛的情況,對(duì)Corner Case進(jìn)行模擬,提升訓(xùn)練數(shù)據(jù)集的全面性和多樣性,確保在處理邊緣案例時(shí)也有良好性能,提升模型泛化能力。二是真實(shí)世界中數(shù)據(jù)獲取的成本高,如大模型對(duì)齊訓(xùn)練中需要人類大量的高質(zhì)量反饋。利用合成數(shù)據(jù)可以實(shí)現(xiàn)對(duì)齊流程自動(dòng)化,幾乎不需人類標(biāo)注,大幅節(jié)省成本,提高獲取效率。三是數(shù)據(jù)獲取和處理涉及到真實(shí)世界中的個(gè)信甚至敏感信息,特別是醫(yī)療健康和金融領(lǐng)域。合成數(shù)據(jù)可以利用差分隱私對(duì)個(gè)體信息“加噪聲”等方法,模擬真實(shí)數(shù)據(jù)集的分布,而不模擬其中的真實(shí)個(gè)人信息,實(shí)現(xiàn)對(duì)個(gè)信去標(biāo)識(shí)化。由此歸納出,合成數(shù)據(jù)具有全面性和多樣性、經(jīng)濟(jì)高效、有利于隱私保護(hù)等優(yōu)點(diǎn)。

四、合成數(shù)據(jù)的生成方法及分類

根據(jù)是否基于實(shí)際數(shù)據(jù)集生成,合成數(shù)據(jù)生成方法主要分為兩大類。第一種是基于真實(shí)數(shù)據(jù)集構(gòu)建的:人們會(huì)建立模型以捕獲真實(shí)數(shù)據(jù)的分布特性和結(jié)構(gòu)特征,刻畫(huà)數(shù)據(jù)中的多變量關(guān)系和相互作用。然后從該模型中抽樣或生成合成數(shù)據(jù)。如果模型能很好地代表真實(shí)數(shù)據(jù),那么合成數(shù)據(jù)將具有與真實(shí)數(shù)據(jù)相似的統(tǒng)計(jì)特性。以ChatGPT為例,它深入研究了人類寫(xiě)的數(shù)十億例文本,分析了詞語(yǔ)之間的關(guān)系,并構(gòu)建了一個(gè)模型來(lái)理解它們是如何組合在一起的。在生成文本時(shí),每一個(gè)單詞的選擇也都取決于它前一個(gè)單詞出現(xiàn)的統(tǒng)計(jì)概率。第二種生成方法并不來(lái)源于真實(shí)數(shù)據(jù),而是通過(guò)使用現(xiàn)有模型或者人類專業(yè)背景知識(shí)來(lái)創(chuàng)建?,F(xiàn)有的模型可以是某個(gè)過(guò)程的統(tǒng)計(jì)模型,也可以是模擬模型(Simulation)。模擬可以通過(guò)游戲引擎等方法創(chuàng)建,如最近火爆的Sora文生視頻模型,里面用到了由游戲引擎(Unity、Unreal Engine 5等)合成的視頻數(shù)據(jù)作為訓(xùn)練集,以提高生成質(zhì)量。

根據(jù)用于訓(xùn)練的AI類型,可以將合成數(shù)據(jù)分為應(yīng)用于生成式AI和判別式AI訓(xùn)練兩類。應(yīng)用于生成式AI訓(xùn)練的通常有媒體合成數(shù)據(jù),即由模型和算法合成的視頻、圖像或聲音。文本合成數(shù)據(jù),即 在自然語(yǔ)言處理中由模型生成的文本。而判別式AI訓(xùn)練(分類或回歸)所需的通常是表格合成數(shù)據(jù),類似真實(shí)生活中數(shù)據(jù)記錄或表格的合成數(shù)據(jù)。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
如果數(shù)據(jù)被大模型耗盡,我們還能看到通用人工智能嗎?|GGView
一覺(jué)醒來(lái)讓“Sora”炸屏,什么是“Sora”一一整理讀這個(gè)文章就夠
大模型時(shí)代的AI之變與開(kāi)發(fā)之根
AI:大力出奇跡?Bigger is better?AI下一代浪潮?—人工智能的大語(yǔ)言模型(LLMs)的簡(jiǎn)介、發(fā)展以及未來(lái)趨勢(shì)
【美學(xué).科技】Sora 橫空出世,會(huì)顛覆哪些行業(yè)?|算法|模態(tài)|視圖|擬合|視頻生成模型
可用數(shù)據(jù)存量不足,還能怎樣向AI模型注入人類智能?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服