免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
AI研報:從Sora看多模態(tài)大模型發(fā)展
《從Sora看多模態(tài)大模型發(fā)展》的研報來自浙商證券,寫于2024年2月。
這篇報告主要探討了多模態(tài)大模型的發(fā)展趨勢,特別是OpenAI發(fā)布的視頻生成模型Sora,以及其對行業(yè)發(fā)展的影響。以下是報告的核心內(nèi)容概述:
Sora模型的發(fā)布:
- OpenAI于2024年2月16日發(fā)布了視頻生成模型Sora,該模型能夠生成長達(dá)1分鐘、不同寬高比和分辨率的視頻和圖片。
- Sora基于Diffusion Transformer技術(shù),結(jié)合了視頻壓縮網(wǎng)絡(luò)、潛空間patch、直接在原始大小訓(xùn)練和重新標(biāo)注技術(shù),能夠處理圖像和視頻輸入,實現(xiàn)多種視頻生成和編輯功能。
視頻壓縮網(wǎng)絡(luò)(Video compression network):減少視覺數(shù)據(jù)維度。輸入原始視頻,輸出一個在時間和空間上都壓縮了的潛在空間。Sora在這個壓縮后的潛在空間中進(jìn)行訓(xùn)練。(同時訓(xùn)練了一個解碼器將生成的潛在表征轉(zhuǎn)回原像素空間)
潛空間patch(Spacetime latent patches ):類比Transformer tokens,推理時通過在合適大小的網(wǎng)格中隨機初始化patch控制生成視頻的大小。
直接在原始圖片的大小上訓(xùn)練:過去往往將視頻或者圖片壓縮到固定大?。ū热?秒鐘、分辨率256*256),Sora直接在原始素材規(guī)格上訓(xùn)練。
為視頻訓(xùn)練素材生成詳細(xì)字幕和標(biāo)注:Re-captioning technique字幕自動生成。首先訓(xùn)練一個能生成詳細(xì)描述的標(biāo)注模型,然后用它為訓(xùn)練集中的視頻生成文本說明。DALL E3中已經(jīng)使用過,使用GPT將簡短prompt轉(zhuǎn)化為詳細(xì)說明,這些說明會被輸入到視頻模型中。這可以增強文本理解能力,可以提高文本的保真度和視頻的整體質(zhì)量,使得Sora能夠生產(chǎn)準(zhǔn)確遵循用戶提升的高質(zhì)量視頻。
Sora核心能力:3D一致性、物體持久性、世界交互、模擬數(shù)字世界
Sora模型的局限性:雖然能模擬一些基礎(chǔ)物理互動,比如玻璃的碎裂,但還不夠精確;
其他相互作用,比如吃食物,并不總是能產(chǎn)生物體狀態(tài)的正確變化;
長視頻中存在邏輯不連貫,或者物體會無緣無故出現(xiàn)的現(xiàn)象。
多模態(tài)大模型的商業(yè)化前景:
- 國內(nèi)外廠商如谷歌、字節(jié)跳動等也在布局多模態(tài)大模型領(lǐng)域,預(yù)計2024年文生視頻將進(jìn)入商業(yè)化探索階段。
- 高質(zhì)量數(shù)據(jù)和底層通用大模型是文生視頻能力的關(guān)鍵因素,隨著技術(shù)的進(jìn)步,文生視頻在時間長度、畫面清晰度和內(nèi)容逼真程度等方面有望實現(xiàn)顯著提升。
全球視頻內(nèi)容市場的潛力:
- 據(jù)數(shù)據(jù)顯示,2025年全球數(shù)字視頻內(nèi)容市場規(guī)模有望達(dá)到3271.9億美元,2021-2025年復(fù)合年增長率約為13.7%。
- 海外已有Synthesia、Runway等廠商在文生視頻領(lǐng)域形成成熟商業(yè)方案,應(yīng)用于企業(yè)產(chǎn)品介紹、操作指南、客戶服務(wù)等場景。
建議關(guān)注的標(biāo)的公司:
- 大模型廠商:科大訊飛、云從科技、微軟、谷歌。
- 多模態(tài)應(yīng)用廠商:萬興科技、虹軟科技、焦點科技、Adobe。
公司名稱代碼AI+視頻相關(guān)業(yè)務(wù)/產(chǎn)品
科大訊飛002230.SZ國產(chǎn)大模型龍頭,多模態(tài)領(lǐng)域技術(shù)積累深厚
海康威視002415.SZ研發(fā)視覺多模態(tài)大模型
大華股份002236.SZ自研大華星漢大模型
云從科技-UW688327.SH國內(nèi)CV領(lǐng)域龍頭廠商之一
焦點科技002315.SZAI外貿(mào)虛擬人視頻助手
虹軟科技688088.SH視覺AI開放平臺
萬興科技300624.SZAI視頻領(lǐng)域龍頭,“天幕”大模型
國投智能300188.SZAI視頻圖像鑒真工作站
當(dāng)虹科技688039.SHAI智能視頻解決方案
網(wǎng)達(dá)軟件603189.SH積極推動“大視頻+AI"在垂直領(lǐng)域的布局
絲路視覺300556.SZ子公司是視頻染技術(shù)龍頭
商湯-Whttp://0020.HK“日日新SenseNova"大模型
拓爾思300229.SZ并面向媒體、金融、政務(wù)領(lǐng)域、拓天大模型
漢王科技002362.SZ筆智能交互、NLP技術(shù)、大數(shù)據(jù)處理、智能人機交互、垂直領(lǐng)域大模型
風(fēng)險提示:
- AI技術(shù)迭代不及預(yù)期的風(fēng)險。
- AI商業(yè)化產(chǎn)品發(fā)布不及預(yù)期的風(fēng)險。
- 政策不確定性帶來的風(fēng)險。
- 下游市場不確定性帶來的風(fēng)險。
報告還詳細(xì)分析了多模態(tài)AI的核心技術(shù)環(huán)節(jié)、Sora模型的技術(shù)路線和應(yīng)用案例,以及國內(nèi)外其他廠商的AI視頻生成算法及工具。此外,報告對AIGC在視頻領(lǐng)域的商業(yè)化現(xiàn)狀與展望進(jìn)行了探討,并預(yù)測了千億級數(shù)字視頻生成市場的未來潛力。
此研報可以在AIGC部落下載:
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【美學(xué).科技】Sora 橫空出世,會顛覆哪些行業(yè)?|算法|模態(tài)|視圖|擬合|視頻生成模型
Sora概念引爆A股!誰在布局AI視頻
人工智能[1579]不了解Sora?看完這篇文章你就懂了
多家上市公司回應(yīng),Sora與物聯(lián)網(wǎng)行業(yè)是否契合?
OpenAI、谷歌相繼發(fā)力AI再度提速,國內(nèi)產(chǎn)業(yè)鏈有望深度受益
萬字長文解構(gòu)中國如何復(fù)刻 Sora:模型架構(gòu)、參數(shù)規(guī)模、數(shù)據(jù)規(guī)模、訓(xùn)練成本
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服