When you purchase through links on our site, we may earn an affiliate commission, Here's how itworks.
Rumors are circulating that OpenAl is about to drop a new model this week andit could be our first sighting of the highly anticipated 'Project Strawberry' - areasoning-focused Al.
Trying, to follow artificial intelligence topics on social media over the past fewdays brought back memories of strawberry picking with my parents as a child.Every account has been dropping pictures ofthe fruit - including OpenAl CEOSam Altman.
OpenAl將于在本周推出一款新模型,這是Open AI首次讓大家看到備受期待的“草莓計(jì)劃”-一這個(gè)草莓計(jì)劃款是專注于推理的人工智能。
01/
Open AI-草莓計(jì)劃
“草莓項(xiàng)目是'Q大模型的前生”
1、草莓計(jì)劃
“草莓計(jì)劃”項(xiàng)目是OpenAI為了提升GPT大模型的的推理能力,在復(fù)雜科學(xué)和數(shù)學(xué)問題的能力得到了充分提升。主要是通過專門的“后訓(xùn)練”方法與借鑒類似STaR的技術(shù),OpenAI希望在模型推理能力上的大幅度提升,然后推動(dòng)大模型加上迭代。這個(gè)項(xiàng)目的核心在于讓大模型不僅能夠生成查詢答案,還能進(jìn)行提前規(guī)劃,實(shí)現(xiàn)自主、可靠地瀏覽互聯(lián)網(wǎng)進(jìn)行“深度研究”的能力。
2、Open AI-“Q計(jì)劃”是什么?
但是我看了國(guó)外很多媒體報(bào)道,說這次的“草莓”可能是一個(gè)代號(hào),因?yàn)椤安葺摹钡那吧硎腔赒*算法模型,更準(zhǔn)確地說是Q star項(xiàng)目,是OpenAI在大模型的突破性進(jìn)展,我記得我之前有寫過專欄解釋Q計(jì)劃的文章。它是基于Q學(xué)習(xí)算法打造的新模型,是通向AGI超級(jí)智能的重大突破。
它是采用了一種叫做“過程監(jiān)督”的技術(shù),將解決問題的過程分解成若干個(gè)步驟,從而提高算法的準(zhǔn)確性和可靠性。它在解決復(fù)雜科學(xué)和數(shù)學(xué)問題的能力是非常強(qiáng)大的。大家都知道數(shù)學(xué)作為生成式AI發(fā)展的基礎(chǔ),掌握數(shù)學(xué)能力對(duì)于AI模型來說意味著更強(qiáng)的推理能力,這是目前大語言模型普遍缺乏的,也是OpenAI希望通過“草莓”項(xiàng)目來實(shí)現(xiàn)的突破。而且Q大模型能夠理解和生成自然語言或代碼的多模態(tài)語言模型,這對(duì)于GPT迭代更新確實(shí)是一個(gè)重大利好。
02/
Open AI-草莓計(jì)劃關(guān)鍵部分
“后訓(xùn)練”
草莓”項(xiàng)目的一個(gè)關(guān)鍵組成部分是專門的“后訓(xùn)練”方法。這種方法在生成式AI模型已經(jīng)通過大量數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的基礎(chǔ)上,進(jìn)一步調(diào)整模型以提高其在特定任務(wù)上的表現(xiàn)。幾個(gè)關(guān)鍵步驟:微調(diào)、人類反饋強(qiáng)化學(xué)習(xí)、推理步驟的生成與篩選(類似于斯坦福大學(xué)開發(fā)的STaR)、反向推理機(jī)制、性能“磨煉”。例如STaR是允許AI模型通過反復(fù)創(chuàng)建自己的訓(xùn)練數(shù)據(jù)來“引導(dǎo)”自己進(jìn)入更高的智能水平,理論上可以實(shí)現(xiàn)超越人類的智能。
OpenAI目前還公布了未來AI發(fā)展的五級(jí)路線圖。大家可以看下圖。這五級(jí)路線圖包括從基礎(chǔ)的語言理解和生成,到復(fù)雜的邏輯推理、自主決策和創(chuàng)造性工作等多個(gè)方面的進(jìn)展。
03/
Open AI-草莓計(jì)劃推理能力有多強(qiáng)?
“接近人類”
大廠都普遍質(zhì)疑LLM的推理能力。
現(xiàn)在谷歌與微軟都在嘗試不同方法想提高LLM語言大模型的推理能力。就連大佬圖靈LeCun都堅(jiān)決認(rèn)為,LLM是不沒有像人類一樣的的推理能力,但是這項(xiàng)技術(shù)真的讓Open AI做成了。你們說是不是不可思議。
推理能力超越人類
據(jù)多個(gè)消息源透露,“草莓”項(xiàng)目的推理能力已經(jīng)超越人類水平,現(xiàn)在很多市場(chǎng)的聲音,經(jīng)常對(duì)大語言模型能否實(shí)現(xiàn)類人推理的能力表示懷疑。項(xiàng)目的前身Q*曾展示過解決前所未見數(shù)學(xué)問題的強(qiáng)大能力,這次又用“后訓(xùn)練的方法”在需要時(shí)主動(dòng)獲取和整合信息,從而更全面地理解和解決問題。
“草莓”模型不僅能夠生成用戶查詢的答案,還能夠提前規(guī)劃并自主可靠地在互聯(lián)網(wǎng)上導(dǎo)航,以執(zhí)行“深度研究”。這種能力使得模型能夠像人類一樣,更全面地理解和解決問題。這種自主性和規(guī)劃能力對(duì)于AI在復(fù)雜任務(wù)中的應(yīng)用具有重要意義。
技術(shù)方法的創(chuàng)新
后訓(xùn)練方法:“草莓”項(xiàng)目采用了專門的“后訓(xùn)練”方法,包括對(duì)基礎(chǔ)模型的微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)。這種方法上面已經(jīng)解釋過了。
自學(xué)推理方法:“草莓”項(xiàng)目可能與斯坦福大學(xué)提出的“自學(xué)推理者”(STaR)方法相似。STaR方法通過讓模型自己生成推理步驟和答案,并篩選出正確的樣本作為新的訓(xùn)練數(shù)據(jù),從而不斷提升模型的推理能力。這種方法是不依賴于大規(guī)模人工標(biāo)注的數(shù)據(jù)集,而是通過自舉的方式讓模型自己學(xué)會(huì)推理。
這次Open AI“草莓”項(xiàng)目對(duì)于推理需求提升無疑是一個(gè)指數(shù)級(jí)增長(zhǎng)的指引。未來大客戶微軟的用戶一定會(huì)大幅度上升,Open AI現(xiàn)在的推理算力無疑是不夠用的。
今天傳出NV-I-D-IA的Bl-a-c-k-w-e-ll芯片問題已經(jīng)徹底解決好,良率據(jù)說60%,但事實(shí)上這種大卡的良率普遍在30到40%,希望大家有自己的判斷。10月左右就可以量產(chǎn)了,Q4月產(chǎn)量15萬片。KY-EC已被要求按時(shí)擴(kuò)大測(cè)試設(shè)備容量,所以整體來說是可以供應(yīng)全球的算力需求,當(dāng)然未來國(guó)產(chǎn)的“草莓”大模型也會(huì)橫空出世。
聯(lián)系客服