復(fù)盤最近一周的大事,在科技領(lǐng)域,人形機(jī)器人可以說是當(dāng)仁不讓的焦點(diǎn)。
科技巨頭入場(chǎng)
近日,英偉達(dá)成立了一個(gè)新的研究小組,名為“GEAR(Generalist Embodied Agent Research)”。目標(biāo)是為了讓英偉達(dá)進(jìn)一步推進(jìn)和構(gòu)建基于人工智能的實(shí)體,并使其能夠在虛擬世界和物理世界中熟練地操作,比如智能機(jī)器人和NPC之類。這個(gè)新部門由AI高級(jí)研究科學(xué)家、AI 代理計(jì)劃的負(fù)責(zé)人Jim fan和Yuke Zhu教授領(lǐng)導(dǎo),主要專注于多模態(tài)基礎(chǔ)模型、通用型機(jī)器人研究、虛擬世界中的基礎(chǔ)智能體、模擬與合成數(shù)據(jù)技術(shù)這四大關(guān)鍵領(lǐng)域,致力于在未來(lái)技術(shù)浪潮中占據(jù)領(lǐng)先地位,并推動(dòng)整個(gè)人工智能和機(jī)器人行業(yè)的持續(xù)進(jìn)步與發(fā)展。
英偉達(dá)還宣布,將于3月18日至21日舉辦GTC2024大會(huì)。屆時(shí),黃仁勛將發(fā)布加速計(jì)算、生成式AI以及機(jī)器人技術(shù)領(lǐng)域的最新突破性成果。在英偉達(dá)列出的12位重磅嘉賓中,三位是機(jī)器人領(lǐng)域大佬,包括Google DeepMind杰出科學(xué)家兼機(jī)器人高級(jí)總監(jiān)Vincent Vanhoucke、波士頓動(dòng)力公司首席技術(shù)官Aaron Saunders、斯坦福大學(xué)計(jì)算機(jī)科學(xué)教授李飛飛博士。Agility Robotics、波士頓動(dòng)力公司、迪士尼和Google DeepMind等公司還將在現(xiàn)場(chǎng)展出25款機(jī)器人,包括人形機(jī)器人、工業(yè)機(jī)械手等。
除此之外,人形機(jī)器人初創(chuàng)公司Figure AI也受到廣泛關(guān)注。據(jù)稱其在新一輪融資中募資約6.75億美元,投前估值約20億美元。目前,亞馬遜創(chuàng)始人杰夫·貝索斯、英偉達(dá)和其他大型科技公司正在投資Figure AI:貝索斯已通過他的公司Explore Investments LLC承諾投資1億美元,微軟將投資9500萬(wàn)美元,英偉達(dá)和亞馬遜附屬基金各提供5000萬(wàn)美元,英特爾的風(fēng)險(xiǎn)投資部門將投入2,500萬(wàn)美元,LG Innotek將提供850萬(wàn)美元。與此同時(shí),三星投資集團(tuán)承諾出資500萬(wàn)美元。一度考慮收購(gòu)Figure的OpenAI將投資500萬(wàn)美元。
FigureAI成立于2022年1月,專注于設(shè)計(jì)自動(dòng)通用人形機(jī)器人。其創(chuàng)始人Brett Adcock被稱為“下一個(gè)埃隆·馬斯克”。Figure公司的員工多來(lái)自特斯拉、IHMC、Apple、Cruise等。這家公司的目標(biāo)是打造世界上第一個(gè)具有商業(yè)可行性的人形機(jī)器人,并加入人類的勞動(dòng)隊(duì)伍。在Figure上個(gè)月發(fā)布的一個(gè)視頻中,旗下產(chǎn)品Figure 01展示出能夠自主完成煮咖啡等任務(wù)的能力。
與此相關(guān)的信息還有,馬斯克在推特發(fā)布人形機(jī)器人Optimus在實(shí)驗(yàn)室里閑逛的視頻。Optimus的步行速度已達(dá)到0.6米/秒或1.34英里/小時(shí)。自12月的視頻演示以來(lái),速度提升了30%以上。
市場(chǎng)規(guī)模將達(dá)千億美元
2024年將是機(jī)器人軟件技術(shù)快速突破之年,也將是人形機(jī)器人量產(chǎn)元年。人形機(jī)器人有望成為千億美元級(jí)的藍(lán)海市場(chǎng)。隨著人形機(jī)器人功能邁向多樣化和普適化, 產(chǎn)業(yè)分工日趨成熟,成本持續(xù)下探,潛在應(yīng)用場(chǎng)景包括制造業(yè)、家庭服務(wù)等多個(gè)領(lǐng)域。有數(shù)據(jù)顯示,2035 年全球人形機(jī)器人制造和家庭服務(wù)市場(chǎng)銷量達(dá)到1318萬(wàn)臺(tái),2025-2035 年CAGR為98.2%;市場(chǎng)規(guī)模達(dá)到1103億美元,2025-2035年CAGR為68.6%。
全球人形機(jī)器人制造和家庭服務(wù)市場(chǎng)銷量
機(jī)器人可以視為AI+制造業(yè)的最佳結(jié)合體。中國(guó)是全球最大的制造業(yè)基地,市場(chǎng)前景發(fā)展廣闊。同時(shí),老齡化已成為工業(yè)化國(guó)家不得不面臨的問題。要想解決這一問題,向資本密集型的自動(dòng)化、智能化產(chǎn)業(yè)轉(zhuǎn)型是更有可能的路徑。對(duì)于中國(guó)而言,高端制造業(yè)的進(jìn)一步升級(jí)也是緊迫而必要的。
從產(chǎn)業(yè)鏈視角上看,人形機(jī)器人相比工業(yè)機(jī)器人而言,由于構(gòu)造復(fù)雜、造價(jià)昂貴,滲透率還比較低,但未來(lái)的市場(chǎng)空間巨大。同時(shí),由于人形機(jī)器人所需要的硬件數(shù)量和精度要求都要遠(yuǎn)高于普通工業(yè)機(jī)器人,這也意味著人形機(jī)器人更長(zhǎng)、更廣泛的產(chǎn)業(yè)鏈,能創(chuàng)造的產(chǎn)業(yè)鏈價(jià)值更大。
AI大模型實(shí)現(xiàn)泛化能力
與AI大模型不同,人形機(jī)器人是軟硬件能力高度集成的實(shí)體。但其核心突破點(diǎn)正在于AI大模型。可以說,AI大模型將形成人形機(jī)器人的AI大腦。具身智能大模型將為機(jī)器人操作系統(tǒng)補(bǔ)全最后一塊拼圖。
以往由于算法模型的局限,機(jī)器人很難形成通用化能力,只能通過對(duì)于某一個(gè)特定領(lǐng)域訓(xùn)練對(duì)應(yīng)的基礎(chǔ)模型,形成特定用途的機(jī)器人AI算法,比如工廠車間大量采用的機(jī)械臂、家用掃地機(jī)器人等。軟件層面的局限性限制了機(jī)器人的應(yīng)用場(chǎng)景。
而大模型的出現(xiàn),補(bǔ)全了讓機(jī)器人能力實(shí)現(xiàn)躍升的技術(shù)基礎(chǔ)。去年,AI公司Levatas與波士 頓動(dòng)力合作,將ChatGPT和谷歌的語(yǔ)音合成技術(shù)接入Spot機(jī)器狗,成功實(shí)現(xiàn)與人類的交互。可以說,ChatGPT 的成功,為人形機(jī)器人的發(fā)展帶來(lái)了拐點(diǎn)??梢哉f,大模型的泛化能力讓研究者看到人形通用機(jī)器人的曙光。
泛化(Generalization)可以理解為一種遷移學(xué)習(xí)的能力,把從過去的經(jīng)驗(yàn)中學(xué)習(xí)到的表達(dá)、知識(shí)和策略應(yīng)用到新的領(lǐng)域。人類就具有“舉一反三”的能力,學(xué)習(xí) 一個(gè)新概念后立即就能理解它在其他情況下的相關(guān)用法。以往,人工智能的泛化能力很低,應(yīng)用場(chǎng)景更加局限。而大模型的泛化能力讓人形機(jī)器人能夠在沒有被訓(xùn)練過的場(chǎng)景中也能有所表現(xiàn),這是人形機(jī)器人實(shí)現(xiàn)通用性的基礎(chǔ)。
有報(bào)道稱,以 GPT-4為代表的多模態(tài)大模型已經(jīng)具備成為通用性人形機(jī)器人核心大腦的初步條件。OpenAI 在 10 月正式上線 GPT-4V(ision),為 GPT-4 新增了語(yǔ)音與圖像功能。用戶可以直接與 GPT-4V 進(jìn)行語(yǔ)音交互,并且 GPT-4V 能夠?qū)D像進(jìn)行推理和分析。根據(jù)微軟團(tuán)隊(duì)對(duì) GPT4V 的詳細(xì)評(píng)測(cè),GPT-4V有作為具身智能的理解核心的潛力。在微軟的測(cè)試案例中,GPT-4V可以扮演一名家庭機(jī)器人,閱讀咖啡機(jī)的操作界面并給出正確的指令操作;或者通過房間圖片的輸入,要求 GPT-4V 規(guī)劃出去廚房冰箱取物品的路線,GPT-4V 也可以執(zhí)行面向任務(wù)的導(dǎo)航。
英偉達(dá)的策略
分析英偉達(dá)在人形機(jī)器人上的戰(zhàn)略,簡(jiǎn)單總結(jié)可以概括成“大模型-數(shù)據(jù)-開發(fā)平臺(tái)”。在去年ITF World 2023半導(dǎo)體大會(huì)上,英偉達(dá)CEO黃仁勛就高調(diào)宣傳了這一概念,并在這場(chǎng)活動(dòng)上公布了一套多模態(tài)具身智能系統(tǒng)——Nvidia VIMA。這是一款全新的AI模型,能夠在視覺文本提示的指導(dǎo)下執(zhí)行復(fù)雜任務(wù)。
在英偉達(dá)GEAR小組負(fù)責(zé)人Jim Fan的演講中,其給具身智能的定義為“一個(gè)掌握廣泛技能,控制許多身體,并能夠泛化到多個(gè)環(huán)境中的單一算法?!边@是一個(gè)可以在虛擬世界和現(xiàn)實(shí)世界里泛化的通用智能體模型,而人形機(jī)器人是這種模型最好的載體。
在GEAR 團(tuán)隊(duì)成立之前,英偉達(dá)已在具身智能大模型領(lǐng)域?qū)崿F(xiàn)了一些研究成果。比較出名是,Nvidia Research團(tuán)隊(duì)利用GPT-4生成獎(jiǎng)勵(lì)函數(shù),教會(huì)機(jī)器人完成三十多個(gè)復(fù)雜任務(wù),包括快速轉(zhuǎn)筆,打開抽屜和柜子、以及拋接球等。在英偉達(dá)發(fā)布的Voyager項(xiàng)目中,將GPT-4嵌入知名游戲《我的世界》,利用多模態(tài)提示實(shí)現(xiàn)通用機(jī)器人操作能力,這也是第一個(gè)用大語(yǔ)主模型驅(qū)動(dòng),玩游戲的案例。
此外,英偉達(dá)還擁有豐富的訓(xùn)練數(shù)據(jù)。這些數(shù)據(jù)一部分來(lái)自英偉達(dá)龐大的生態(tài)伙伴;另一方面英偉達(dá)還摸索出一條獲取數(shù)據(jù)的“新路”,即利用自身硬件生成數(shù)據(jù)。在英偉達(dá)與得克薩斯大學(xué)奧斯汀分校的一項(xiàng)最新研究論文中,介紹了一個(gè)名為“MimicGen”的系統(tǒng),該系統(tǒng)可以用不到 200個(gè)演示,自主生成超過5萬(wàn)個(gè)訓(xùn)練數(shù)據(jù),從而大大減少昂貴的人工演示工作、加快機(jī)器 AI 化進(jìn)程。在行業(yè)數(shù)據(jù)資源幾近枯竭的背景下,英偉達(dá)靠著自身的硬件條件讓AI大模型訓(xùn)練更加容易。而相關(guān)分析顯示,合成數(shù)據(jù)有望打破人工智能訓(xùn)練數(shù)據(jù)的瓶頸。
英偉達(dá)的最終目標(biāo)還是打造機(jī)器人開發(fā)平臺(tái)與生態(tài),搶占產(chǎn)業(yè)鏈價(jià)值最高點(diǎn)。英偉達(dá)在Jetson Orin系列平臺(tái)的基礎(chǔ)上,推出了Issac AMR等一系列智能機(jī)器人平臺(tái),以鞏固其競(jìng)爭(zhēng)優(yōu)勢(shì)。在即將召開的GTC2024大會(huì)上,英偉達(dá)將發(fā)布加速計(jì)算、生成式AI 以及機(jī)器人領(lǐng)域的最新突破性成果。會(huì)議上,Agility Robotics、波士頓動(dòng)力公司、迪士尼和Google Deep Mind等公司將在現(xiàn)場(chǎng)展出25款機(jī)器人,包括人形機(jī)器人、工業(yè)機(jī)械手等。這些都是英偉達(dá)打造機(jī)器人開發(fā)平臺(tái)與生態(tài)的一部分。具身智能被英偉達(dá)看作AI的下一個(gè)熱點(diǎn)。英偉達(dá)正在人形機(jī)器人產(chǎn)業(yè)上做前期的布局。
聯(lián)系客服