大模型根本不會(huì)推理!
亞利桑那州立大學(xué)教授Subbarao Kambhampati最近發(fā)表了一系列言論,直指當(dāng)前大語(yǔ)言模型(LLM)推理能力的迷思。這番言論引發(fā)了業(yè)內(nèi)熱議,不少網(wǎng)友紛紛表示:原來(lái)AI這么強(qiáng)的推理能力,都是假的?
Kambhampati教授一針見(jiàn)血地指出:
許多關(guān)于LLM推理能力的說(shuō)法都忽視了一個(gè)事實(shí):LLM不僅僅是訓(xùn)練于'事實(shí)',更多時(shí)候還包括了這些事實(shí)的演繹閉包。因此,所謂的'推理'實(shí)際上變成了(近似)檢索。
也就是說(shuō),我們以為AI在進(jìn)行推理,其實(shí)它只是在從記憶中調(diào)取已有信息。這就好比一個(gè)學(xué)生,不是通過(guò)理解公式來(lái)解題,而是把所有可能的題目和答案都背下來(lái)了。
網(wǎng)友@AndyXAndersen 就評(píng)論道:
LLM充其量只能基于非常相似的數(shù)據(jù)做出猜測(cè)。通過(guò)外部驗(yàn)證、優(yōu)化和反復(fù)搜索問(wèn)題空間,這可以在較簡(jiǎn)單的情況下近似演繹推理。
看來(lái),AI的'聰明'程度,可能遠(yuǎn)不如我們想象的那么高!
但問(wèn)題來(lái)了,既然AI只是在做'檢索',為什么它還能回答一些訓(xùn)練數(shù)據(jù)中沒(méi)有的問(wèn)題呢?
Kambhampati教授解釋說(shuō),這是因?yàn)樵诰W(wǎng)絡(luò)規(guī)模的訓(xùn)練數(shù)據(jù)中,一些2階、3階甚至k階可達(dá)的事實(shí)與基本事實(shí)交織在一起,使得LLM能夠通過(guò)模式匹配走得更遠(yuǎn),而無(wú)需真正學(xué)習(xí)推理過(guò)程。
簡(jiǎn)單來(lái)說(shuō)就是,AI看起來(lái)會(huì)推理,其實(shí)是數(shù)據(jù)量太大,很多看似需要推理的結(jié)果,它其實(shí)都'見(jiàn)過(guò)'。
對(duì)此,@TheBlackHack一針見(jiàn)血地指出:
LLM無(wú)法計(jì)算,因?yàn)樗鼈儾皇怯?jì)算機(jī)器。我們可以將它們視為有限的token序列映射,一旦學(xué)習(xí)就不會(huì)改變,所以如果映射中缺少某個(gè)序列,就無(wú)法從頭構(gòu)建它。
這也引發(fā)了不少爭(zhēng)議。有人表示認(rèn)同,也有人提出了不同看法。
@EmilevanKrieken就問(wèn)道:
我有點(diǎn)困惑,你描述的聽(tīng)起來(lái)不就是分布內(nèi)/外(in/out of distribution)的問(wèn)題嗎?如果你在2級(jí)可達(dá)性上訓(xùn)練,那么任何2級(jí)可達(dá)的東西都是分布內(nèi)的,但3級(jí)就是分布外的。
Kambhampati教授回應(yīng)說(shuō),問(wèn)題在于,當(dāng)前的分布內(nèi)/外分析讓我們關(guān)注那些從推理角度來(lái)看并不有趣的泛化方面。
具體來(lái)說(shuō),把LLM在一小部分2可達(dá)事實(shí)上'混合訓(xùn)練'后,我們?yōu)樗懿鲁龈?可達(dá)事實(shí)而歡呼,卻沒(méi)注意到它需要單獨(dú)的混合訓(xùn)練才能達(dá)到3可達(dá)、4可達(dá)等。
@JoelKreager形象地比喻道:
跟隨函數(shù)產(chǎn)生的所有路徑。這是一個(gè)龐大但有限的集合。聚類(lèi)輸入、邏輯連接會(huì)導(dǎo)致聚類(lèi)輸出。也會(huì)有一些類(lèi)似特征向量的東西,但是針對(duì)整個(gè)模型。
那么問(wèn)題來(lái)了:既然AI不會(huì)真正的推理,為什么它還能在一些需要推理的任務(wù)中表現(xiàn)優(yōu)異呢?
Kambhampati教授解釋說(shuō),這是因?yàn)樵谟?xùn)練數(shù)據(jù)中,一些需要2步、3步甚至更多步驟推理得出的結(jié)果,已經(jīng)被直接包含在內(nèi)了。所以AI看起來(lái)會(huì)推理,其實(shí)是靠超強(qiáng)的記憶力在'套模板'。
這就好比,你覺(jué)得一個(gè)學(xué)生數(shù)學(xué)特別好,因?yàn)樗偰芎芸斓贸稣_答案。但其實(shí),這個(gè)學(xué)生是把所有可能的題目和答案都背下來(lái)了,而不是真的懂得解題方法。
對(duì)此,@Mr Nemo提出了一個(gè)有趣的觀(guān)點(diǎn):
演繹閉包是一個(gè)封閉的環(huán)境,其中所有變量都是已知的;閉包內(nèi)的所有元素都是已知的,它們的來(lái)源是已知的,所有元素之間所有可能相互作用的所有可能結(jié)果都是已知的:對(duì)嗎?
這個(gè)比喻非常形象。AI模型就像是一個(gè)巨大的、預(yù)先計(jì)算好的查找表。它能快速給出答案,但并不真正'理解'問(wèn)題。
那么,這對(duì)AI的未來(lái)發(fā)展意味著什么呢?
Kambhampati教授認(rèn)為,我們需要重新思考如何評(píng)估AI的推理能力。他指出,當(dāng)前的許多基準(zhǔn)測(cè)試可能并不能真正反映AI的推理水平。
比如,即使AI在4位數(shù)乘法上表現(xiàn)出色,但如果你測(cè)試5位數(shù)乘法,你會(huì)發(fā)現(xiàn)它又回到了起點(diǎn),就像@YejinChoinka和她的同事發(fā)現(xiàn)的那樣。
就像你教會(huì)了一個(gè)孩子背誦九九乘法表,但他并不真正理解乘法的概念。當(dāng)你讓他計(jì)算10×10時(shí),他就完全不知所措了。
@bensmith_sv就問(wèn)道:
對(duì)于9位數(shù)乘法,我看到大多數(shù)模型可以計(jì)算部分乘積,但在把它們加在一起時(shí)失敗了 - 為什么會(huì)這樣?
這個(gè)問(wèn)題非常深刻。它揭示了AI模型在處理復(fù)雜任務(wù)時(shí)的局限性。AI可能已經(jīng)'記住'了很多部分結(jié)果,但當(dāng)需要綜合這些結(jié)果時(shí),它就顯得力不從心了。
那么,我們?cè)撊绾胃倪M(jìn)AI的推理能力呢?
Kambhampati教授建議,我們需要關(guān)注AI是否真正學(xué)習(xí)了底層程序,并能將其應(yīng)用于任何未見(jiàn)過(guò)的實(shí)例——無(wú)論是3-、4-、5-還是100可達(dá)的推論,還是5×5、6×6,...100×100位數(shù)的乘法。
我們不應(yīng)該滿(mǎn)足于A(yíng)I能解決特定的數(shù)學(xué)題,而應(yīng)該追求它真正理解數(shù)學(xué)原理,能夠靈活運(yùn)用于各種新問(wèn)題。
最后,@tetraduzione總結(jié)道:
我猜問(wèn)題在于人們可能只是混淆了在另一個(gè)分布的測(cè)試集上獲得100%準(zhǔn)確率是真正的分布外泛化(如演繹閉包)的必要但非充分條件。
但論文上定義的'分布外泛化'概念本身是正確的。
這也正是當(dāng)前AI研究中的一個(gè)重要誤區(qū)。
我們不能僅僅因?yàn)锳I在某些測(cè)試中表現(xiàn)出色,就認(rèn)為它真的掌握了推理能力。
AI的進(jìn)步之路還很漫長(zhǎng)??!
你怎么看待AI的推理能力呢?
??
??
??
??
星球?qū)崟r(shí)采集和監(jiān)控推特、油管、discord、電報(bào)等平臺(tái)的熱點(diǎn)AI 內(nèi)容,并基于數(shù)個(gè)資訊處理的 AI agent 挑選、審核、翻譯、總結(jié)到星球中。
聯(lián)系客服