近一周，相信大家的朋友圈都被一個詞刷屏了：Sora。

2月16日凌晨，在沒有任何預兆和消息透露的情況下，OpenAI突然發(fā)布了自己的首個文生視頻模型：Sora，大幅刷新行業(yè)多個指標，將視頻生成的時長一次性提升了15倍，顛覆了生成式 AI 在視頻領域的全球市場格局。

OpenAI新爆款Sora的熱度持續(xù)發(fā)酵，以黑馬之姿占據各大平臺話題中心——馬斯克感嘆“人類愿賭服輸”；楊立昆狠批“Sora不是世界模型，參數量或僅30億”；周鴻祎預言“AGI實現將從10年縮短到1年”...

似乎一夜之間，人們又回到了一年多前那個令人焦慮的“ChatGPT時刻”。在爭議之外，Sora到底“?！痹谀?？對于創(chuàng)業(yè)者和行業(yè)來講，會引發(fā)“地震”嗎？

丁磊博士在AI領域有20多年的研究和工作經驗，曾為硅谷公司PayPal創(chuàng)立人工智能平臺，并出版了《生成式人工智能》一書。中信書院特邀丁磊博士，以資深從業(yè)者的視角，為我們理清思路。

來源 | 中信書院(ID:citicbook)

作者 | 丁磊

編輯 | 三昧

01 從文字到視頻Sora到底有多“可怕”

OpenAI發(fā)布了一個由Sora據一段文字生成的長達60秒的視頻，要知道就在不久之前，谷歌公司發(fā)布的最新視頻生成模型VideoPoet，其生成的視頻也就僅僅10秒。

當然，Sora的突破不僅僅在于時長，這個60秒的視頻，不管是流暢度和穩(wěn)定性，還是對光影反射、運動方式等細節(jié)的處理方面，特別是對物理世界的學習能力，都表現出極高的水準。

那Sora到底是怎樣根據一段文字生成如此驚艷的視頻？

我們知道視頻是一幀一幀的圖片連接而成的，而想要了解“文字生成視頻”，我們應該先了解“文字生成圖片”。

近兩年，隨著Midjourney、Stable Diffusion、Dall-E等圖片生成工具的出現以及性能的升級強化，幾乎是和ChatGPT一道，將人們對生成式AI的關注度推到了一個前所未有的高度。這些工具能根據一段提示詞創(chuàng)作出風格迥異、內容豐富的圖片，其對細節(jié)的處理已經相當出色（如圖1）。

圖1：圖片生成工具生成的圖片

圖源：https://openai.com/dall-e-3

這些圖片生成工具的背后，是一項稱為Diffusion（擴散）模型的關鍵技術，它能夠將一張馬賽克一樣的圖片，不斷結合提示詞提供的信息，多次還原，最后形成一張完整、清晰的圖片。

Diffusion模型完整的擴散過程包括正向擴散和逆向擴散兩個過程（如圖2），在正向擴散過程中通過逐步添加高斯噪聲使得圖片變得模糊，而在逆向擴散過程中通過學習正向反過程來訓練模型，兩者結合形成最終的Diffusion模型。

圖2：Diffusion模型的擴散過程

既然有了圖片，為了得到最終的視頻，我們就需要想辦法讓圖片動起來，這就要用到大名鼎鼎的Transformer模型了。

Transformer模型是一個用來處理各類序列問題的強大模型，一類是文本生成，ChatGPT就是利用Transformer模型根據用戶輸入的提示詞，來生成連續(xù)的文字內容的。另一類是視頻生成，由于視頻本質上是由連續(xù)的圖片幀組成的，我們同樣可以將視頻理解為一種圖像數據序列，無非是其在圖像領域的自然延展。

實際運用過程中，Sora把視頻分解為更小的數據單元Patch（時空碎片），每個Patch相當于文本序列模型中的一個Token（詞元），而這也是Sora最重要的理念之一。

從Sora生成的視頻中我們似乎可以察覺到，它就像具備了理解世界通識的能力，能夠準確的模擬事物在現實世界中的真實表現，例如最基本的動作連貫性、流體運行的形態(tài)、光影隨動物的變化、物體尺寸的比例等等這些，都表現的像是真實拍攝的視頻一樣，令人嘆為觀止。

比如，給出提示詞：“攝像機跟隨一輛白色老式SUV，頂部有黑色行李架，它加速通過一條陡峭的土路，周圍是松樹，地勢陡峭，車輪卷起了塵土...”，Sora生成了汽車在山間疾馳的視頻（如圖3），此時“世界模型”就需要預測汽車輪胎和路面相互作用所形成的車輪印跡、汽車疾馳時揚起的塵土和一系列的光影變化等。

圖3：Sora生成的視頻部分截取

圖源：OpenAI 官網

Sora的橫空出世，不僅帶來了視頻生成領域全新的應用體驗，其兼具的內容生成和理解世界的能力更是讓人們對生成式AI有了新的認識和思考。

02 三個維度看Sora引發(fā)的“地震”

Sora真正令人震驚之處，是在于模型能夠理解物體在物理世界中的存在方式和運行規(guī)律，模型可以學習物理世界的規(guī)律又可以準確模擬出真實的物理世界。隨著這種能力的進一步深化，由Sora推動的人工智能跨越式發(fā)展，將極大拉近我們與更具通用性的未來智能世界的距離。

引爆AI產業(yè)投資熱情

資本市場一向是很敏感的，Sora引爆了資本對AI產業(yè)的投資熱情，涉及AI概念的賽道整體上漲，更多人看到了生成式AI的發(fā)展和希望。其中走在前列的仍是科技巨頭，國內外科技巨頭都在不斷增加對AI技術的持續(xù)投入。

緊隨其后的，無論是互聯網，還是信息、金融、零售等等各行業(yè)，也有更多企業(yè)宣布積極投入大模型研發(fā)和AI的相關布局。越來越多的投資者也意識到，想要讓人工智能在特定的行業(yè)內得到更加廣泛和深入的應用，需要更多的投入和耐心，而這對生產力水平的提升，以及對產業(yè)結構的調整和發(fā)展也有著深遠的意義。

給行業(yè)帶來“巨震”

最先受到影響的無疑是影視、短視頻、廣告、互娛、媒體等這些行業(yè)。Sora能夠快速生成高質量視頻內容，大幅降低了特效和高風險鏡頭的制作成本，提高內容制作效率。借助Sora，廣告公司則可以迅速制作符合市場需求的視頻廣告，縮短了創(chuàng)意到成品的周期。

而這必將是一把雙刃劍，視頻內容制作成本和門檻大幅降低的同時，也會加劇行業(yè)的競爭，它對創(chuàng)作者提出了更高的要求，創(chuàng)作者必須不斷創(chuàng)新，才能保持其作品的吸引力和市場份額。

我們離失業(yè)還遠嗎？

不僅僅是視頻，生成式AI帶動文本、圖像、音頻等各種內容生成技術快速發(fā)展，應用場景快速演化，各行各業(yè)都會受到影響，這也加劇了人們擔憂和隱慮，有人不免驚呼“硅基生命終將取代碳基生命”“AI接管人類社會的步伐在加快”等。有些人可能徹底選擇“躺平”了，認為AI進化如此之快，甚至可以學習物理世界了，我們離失業(yè)還遠么！

目前，各種生成式AI模型仍在研發(fā)階段，還有待進一步落地應用，談論是否能取代人類的工作還為時過早，但是這不可否定AI的影響力。AI帶來的改變是深入各行各業(yè)和我們生活的每個角落的。

AI的快速進步會極大的提升生產效率和工作方式，重新定義人在工作中的位置。隨著越來越多的新興職業(yè)和崗位的出現，例如AI產品經理、提示詞(Prompt)工程師、AI創(chuàng)意師、AI 調校師等等，這些職業(yè)的需求和數量也將逐步提升，可以說，AI也帶來職業(yè)結構的改變。

與其說AI將取代從業(yè)者，不如說AI代替的是枯燥繁重的工作內容，AI淘汰的不是人類，是落后的生產力。對于AI，我們不應該將其視為競爭對手，而是將其視作我們的工作伙伴，訓練并加以使用。正所謂，君子生非異也，善假于物也。

03 由Sora到世界模型生成式AI的未來已來

面對Sora帶來的震驚，人們的反應也可以說是喜憂參半。一方面見證了生成式AI的又一“奇跡”，另一方面也興許會發(fā)現大語言模型離解決實際問題的距離還很遠，而且“馴服”大模型仍需要時間。

有研究聲稱隨著越來越多人使用，大模型似乎變笨了，甚至還出現了“幻覺”。出現這種問題的主要原因是目前主流的生成式模型仍然缺少對于物理世界的理解，以致于對于一個正常人來說非常容易解答的問題，在大模型看來卻無法給出正確的輸出。

Sora的出現讓我們更加清晰的認識到了這個問題，也為生成式AI的未來發(fā)展提供了方向，就是讓大模型認識和學習物理世界，建立起大模型與物理世界的聯通。這必將帶來AI新的應用和突破。有人認為，Sora意味著實現通用人工智能的時間被大大縮短。

人腦認識事物的過程類似一個模型。從認識論的角度來看，在人腦認識的過程中會逐漸形成“關于世界的模型”。人的主觀知識并不一定從一開始就符合現實規(guī)律，但是通過不斷的實踐和不斷的比較中，從模型獲得的預期結果與實踐的結果，來修正主觀認識，以減少模型預測與實踐之間的差異。這種調整機制可以使得人腦關于世界的模型更接近真理。

這就好比說，體育運動是人類對物理世界認知和學習過程的體現。以乒乓球運動為例，運動員一開始能掌握最簡單的推、攻技巧，對于常規(guī)的來球，一般都能正常應對，回球路線也符合自己的預期。隨著來球的速度、旋轉的變化，運動員發(fā)現以往的接球技巧很難完全應對了，回球時而下網、時而出臺。

運動員逐漸認知到，通過調整球拍接球的力度和角度可以應對不同的來球情況。隨著接觸到的來球情況變得多樣，大腦里就會構建越來越復雜的“世界模型”，之后在賽場上無論遇到什么情況，都能應對自如。這就是人類的“世界模型”認知和學習的過程。

“世界模型”也是心理學和工程科學上的一個重要概念。例如，著名人工智能科學家Yann LeCun（楊立昆）在談論機器智能的時候就提到了世界模型的重要性：世界模型模塊構成了架構中最復雜的部分，其作用包括：估計世界狀況的缺失信息，以及預測世界的未來狀態(tài)（如圖4）。

圖4：自主智能的系統架構（在原圖基礎上有簡化）圖源：Yann LeCun,“A Path Towards Autonomous Machine Intelligence”

世界模型可以被看作是世界相關方面的一種“模擬器”，對真實的物理世界進行建立模型，從而讓機器像人類一樣，對世界有一個全面而準確的認知，可以預測世界的自然演變，或者可以預測由特定行為產生的未來世界狀態(tài)。

回到對Sora的討論，Sora帶給人們的震撼是，它似乎通過學習，不斷締造物理場景下的“知識體系”，通過融匯這些知識，生成高質量的視頻內容，給人類帶來以假亂真的視覺感受。當然，如果我們以“世界模型”的標準來重新審視目前的生成結果，Sora距離真正意義上的“世界模型”還有一段不小的距離。

一方面，Sora在處理復雜場景和物理效果時仍然存在一些不足。例如，當場景中涉及到多個物體的交互或復雜的物理運動時，Sora可能會出現失誤或偏差。

另一方面，Sora主要依賴于大量的訓練數據來學習視頻的生成規(guī)律，這種方式雖然有效但在一定程度限制了其在新場景下的泛化能力。

Sora讓我們看到了AI形成“世界模型”的影子，一旦AI與物理世界建立了聯通，學習到了“世界模型”，AI的推理和預測能力將實現突破，這將在很多應用場景和專業(yè)領域里大有可為。這樣的AI能夠執(zhí)行復雜任務和操作，甚至能夠完全模仿人類智能的行為，最終實現通用人工智能。

04 引領科技革命

為什么這次又是美國？

我曾為硅谷公司PayPal建立了服務全球用戶的數據科學平臺，在AI領域有20多年的研究和工作經驗。在硅谷工作多年，我非常了解為什么硅谷會出現OpenAI及山姆·奧特曼這樣的人——是硅谷的“工程師文化基因”造就了他們。

OpenAI是長在美國硅谷重視工程師地位的文化土壤里，有著強大的“工程師文化基因”，簡單說就是工程師可以主導研發(fā)，擁有更大自主性，發(fā)揮創(chuàng)造性的空間更大。

同時，OpenAI堅持產品驅動，沒有知識分子的清高，無論是Transformer還是Instruction Tuning等算法模型，不因為是別人發(fā)明的就避之不用，而是秉承“拿來主義”，持續(xù)在自己的大模型里埋首用功。對一個企業(yè)來說，最大的價值創(chuàng)造永遠在用戶使用的產品里。

那么，為什么谷歌等大公司目前在人工智能領域的研發(fā)都很難超越OpenAI？

一個關鍵因素是這些大公司還是按照原有的軟件研發(fā)方式研發(fā)新的AI技術，將任務拆成不同的細分任務，多部門人員各自負責細分業(yè)務，這是一種“養(yǎng)雞模式”。

以大模型訓練為核心的新興AI技術研發(fā)，其本質是一個很難拆解的任務，需要核心領導層在技術、產品和業(yè)務等層面都有端到端的視野和管控能力。這更像是一種“養(yǎng)娃模式”，父母需要站在全局角度，親自教授培養(yǎng)孩子，也就是說孩子的教育不需要那么多老師，核心人物只要少數。據OpenAI發(fā)布的Sora技術報告，Sora作者團隊僅有13人。

值得一提的是，OpenAI的CEO山姆·奧特曼，其個人能力就非常強，不僅懂技術，也懂商業(yè)運作，甚至在去年底發(fā)生了舉世矚目的“宮斗”事件后，都能快速回歸原位，足見其影響力之強大。正是有這樣一位領導者，全局把控公司運營方式，同時避免過多受股東制約，才能讓OpenAI始終走在AI技術創(chuàng)新的前沿。

就AI產業(yè)發(fā)展來說，中國的人才不比美國少，要想在AI競爭中快速占據有利位置，不妨加快布局，充分尊重模型訓練本身的規(guī)律，用客觀全面的AI思維，去迎接新一輪的挑戰(zhàn)。

現在大家普遍對人工智能感到焦慮，在我的新書《生成式人工智能——AIGC的邏輯與應用》當中，比較詳細地展望了AIGC的未來趨勢以及對個人的影響，我們身處在AI技術日益革新的世界中，每一個人，與其踟躕不定，不如就此前行。

本站僅提供存儲服務，所有內容均由用戶發(fā)布，如發(fā)現有害或侵權內容，請點擊舉報。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

01

從文字到視頻Sora到底有多“可怕”

02

三個維度看Sora引發(fā)的“地震”

03

由Sora到世界模型生成式AI的未來已來

04

引領科技革命

為什么這次又是美國？

為什么這次又是美國？