亚洲国产天堂在线mv网站,一级毛片免费毛片一级毛片免费

［首藏作品］（8830）AI從“一專一能”邁向“多專多能”

2022.09.19 廣西

◎?qū)嵙曈浾?nbsp;李詔宇

“紫東太初”是全球首個圖、文、音三模態(tài)大模型，開創(chuàng)性地實現(xiàn)了圖像、文本、語音三模態(tài)數(shù)據(jù)間的“統(tǒng)一表示”與“相互生成”，實現(xiàn)了“以圖生音”和“以音生圖”，理解和生成能力更接近人類，為打造多模態(tài)人工智能行業(yè)應(yīng)用提供創(chuàng)新基礎(chǔ)，向通用人工智能邁出了重要一步。

近日，2022世界人工智能大會在上海舉行，由武漢人工智能研究院、中國科學(xué)院自動化研究所和華為技術(shù)有限公司聯(lián)合研發(fā)的“紫東太初”多模態(tài)大模型項目獲得了此次大會的最高獎項?！按舜未髸?智聯(lián)世界，元生無界’主題，恰好揭示了人類智能未來發(fā)展的兩大方向，智聯(lián)世界代表弱人工智能對物理世界的作用及改造，而元生無界則代表著利用人工智能技術(shù)構(gòu)建元宇宙，實現(xiàn)虛實融合的新型世界。”中國計算機行業(yè)協(xié)會數(shù)據(jù)安全專業(yè)委員會委員、北京理工大學(xué)網(wǎng)絡(luò)與安全研究所所長閆懷志說。

中國科學(xué)院自動化研究所研究員、武漢人工智能研究院院長王金橋表示，“紫東太初”是全球首個圖、文、音三模態(tài)大模型，開創(chuàng)性地實現(xiàn)了圖像、文本、語音三模態(tài)數(shù)據(jù)間的“統(tǒng)一表示”與“相互生成”，實現(xiàn)了“以圖生音”和“以音生圖”，理解和生成能力更接近人類，為打造多模態(tài)人工智能行業(yè)應(yīng)用提供創(chuàng)新基礎(chǔ)，向通用人工智能邁出了重要一步。

“紫東太初”具備部分類腦特性

在閆懷志看來，通用人工智能旨在制造出像人類一樣思考、像人類一樣擁有全面智能、能夠從事多類型工作的機器，因此又被稱為強人工智能。目前的人工智能充其量只是承襲了人類的認知結(jié)果，遠未形成不同感官之間的、相互確定的認知能力。

傳統(tǒng)的人工智能，比如大名鼎鼎的阿爾法圍棋（AlphaGo），在一些領(lǐng)域內(nèi)已經(jīng)“孤獨求敗”。不過，北京德火科技有限責任公司技術(shù)總監(jiān)李巖表示，現(xiàn)階段許多行業(yè)內(nèi)應(yīng)用的人工智能技術(shù)仍處于比較初級的階段，與科幻電影中設(shè)想的各類人工智能應(yīng)用還相去甚遠。

在王金橋看來，人工智能一路發(fā)展至今，雖然取得了許多突破與進步，但仍存在三大主要局限：首先，人工智能模型的功能單一，一個模型只能解決一個任務(wù)；其次，人工智能模型的訓(xùn)練依賴于大量的樣本，如果缺乏足夠的樣本支撐，訓(xùn)練也就無從談起。以訓(xùn)練人臉識別數(shù)據(jù)庫Webface為例，需要2.6億張圖片才能訓(xùn)練出一個可用的模型；最后，人工智能模型的泛化能力差，不能應(yīng)用于廣泛的應(yīng)用場景。

“我們一直以來都在追求如何解決當前人工智能'一專一用’的問題，基于自監(jiān)督學(xué)習的多模態(tài)預(yù)訓(xùn)練模型是當前的一個重要發(fā)展路徑?！蓖踅饦蛘f。

自監(jiān)督學(xué)習指的是從大規(guī)模的無監(jiān)督數(shù)據(jù)中挖掘隱含的監(jiān)督信息進行訓(xùn)練，從而得到對下游任務(wù)有價值的表征，相比于傳統(tǒng)的深度學(xué)習，是更接近人類的學(xué)習方式。

“能否在同一個維度、同一個空間，面對不同的場景提供同一個多模態(tài)大模型，擺脫'一專一能’，是實現(xiàn)人工智能通用化的基礎(chǔ)?！蓖踅饦蛘f?！白蠔|太初”可以將圖像、文本、語音等不同模態(tài)數(shù)據(jù)實現(xiàn)跨模態(tài)的統(tǒng)一表征和學(xué)習，突破了當前AI技術(shù)局限，具備部分類腦特性，從“一專一能”邁向“多專多能”。

閆懷志指出：“本質(zhì)上，'以圖生音’和'以音生圖’仍然是一種基于數(shù)據(jù)的人工智能，但它更接近于人類的理解和思考方式，因此可以被視為從弱人工智能向通用人工智能邁進的重要基礎(chǔ)性工作。”

實現(xiàn)三模態(tài)內(nèi)容的統(tǒng)一與重現(xiàn)

曾經(jīng)，“以圖生音”和“以音生圖”只是幻想，而如今的“紫東太初”卻讓這兩者成為了現(xiàn)實。“以圖生音”和“以音生圖”究竟是如何實現(xiàn)的？實現(xiàn)圖、文、音三模態(tài)轉(zhuǎn)化的真正關(guān)鍵以及底層邏輯是什么？

據(jù)悉，“紫東太初”三模態(tài)間的相互轉(zhuǎn)換和生成，其核心原理是視覺、文本、語音不同模態(tài)通過各自編碼器映射到統(tǒng)一語義空間，然后通過多頭自注意力機制學(xué)習模態(tài)之間的語義關(guān)聯(lián)以及特征對齊，形成多模態(tài)統(tǒng)一知識表示；之后，再利用編碼后的多模態(tài)特征，通過解碼器分別生成文本、圖像和語音。

王金橋表示：“通俗地說，'紫東太初’就是將形式各不相同的三模態(tài)內(nèi)容轉(zhuǎn)化為一個統(tǒng)一的多模態(tài)知識表示，之后再次利用這種知識表示重新生成三模態(tài)內(nèi)容，以此實現(xiàn)'以圖生音’和'以音生圖’?！?div style="height:15px;">

同時，王金橋還表示，“紫東太初”憑借四大突破，有效助力以多模態(tài)認知為核心的通用人工智能發(fā)展。

具體來說，一是首次提出多層次、多任務(wù)跨模態(tài)自監(jiān)督學(xué)習框架，支持從詞條級走向模態(tài)級、樣本級的三級預(yù)訓(xùn)練自監(jiān)督學(xué)習方式；二是首次完成弱關(guān)聯(lián)多模態(tài)數(shù)據(jù)語義統(tǒng)一表示，減少數(shù)據(jù)收集與清洗代價；三是首次實現(xiàn)多模態(tài)理解與生成任務(wù)的統(tǒng)一建模，支持跨模態(tài)檢索、多模態(tài)分類、語音識別、圖像生成等理解與生成任務(wù)；四是首次實現(xiàn)無監(jiān)督超越有監(jiān)督方法，基于5%—10%的數(shù)據(jù)標注，實現(xiàn)100%的有監(jiān)督學(xué)習效果。

打造典型人工智能行業(yè)應(yīng)用

“與單模態(tài)和圖文兩模態(tài)相比，'紫東太初’采用圖、文、音三模態(tài)大模型，可以靈活支撐全場景的人工智能應(yīng)用?！蓖踅饦蛘f，“'紫東太初’還具有在無監(jiān)督情況下多任務(wù)聯(lián)合學(xué)習以及不同領(lǐng)域數(shù)據(jù)快速遷移的強大能力。引入語音模態(tài)后的多模態(tài)預(yù)訓(xùn)練模型，可實現(xiàn)共性圖文音語義空間表征和利用，并突破性地直接實現(xiàn)三模態(tài)的統(tǒng)一表示，對更廣泛、更多樣的下游任務(wù)提供模型基礎(chǔ)支撐。”

“目前，我們已經(jīng)整合了產(chǎn)學(xué)研用各方面的資源，打造了一系列典型的人工智能行業(yè)應(yīng)用?！蓖踅饦蛘f。在智能制造領(lǐng)域，“紫東太初”可以有效降低模型訓(xùn)練對于樣本數(shù)量的依賴，同時提升算法性能。

“紫東太初”還與杭州移動共同打造了為杭州文旅代言的智能文旅虛擬人“杭小憶”?！白蠔|太初”的多模態(tài)對話支持南宋御街場景陶瓷、絲綢、活字印刷、特色小吃等場景化數(shù)據(jù)的增量訓(xùn)練，助力南宋御街的導(dǎo)游、導(dǎo)購人工智能數(shù)字人實現(xiàn)語音識別、中文對話、語音交互、以音生圖等功能。

《科技日報》2022年9月19日第 6 版）

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

紫東太初：造一個國產(chǎn)大模型，需用多少篇高質(zhì)量論文？

像人類一樣認識世界，AI需要哪些底層思維？

大模型時代的AI之變與開發(fā)之根

GPT-4下周發(fā)布多模態(tài)大模型視頻首當其沖

后GPT時代，多模態(tài)是最大的機會

華為智慧搜索更好用了！上線智慧搜圖，用人話找出“我的”圖片

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版