免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
12月AI大模型橫評(píng)-O1第一,deepseek第五

知乎上業(yè)界玩家做的這個(gè)大模型真實(shí)評(píng)測(cè)排名,還有一定參考價(jià)值。轉(zhuǎn)發(fā)給大家。

#1 參賽選手
本次新增模型:
O1
gemini-2.0-flash-thinking-exp-1219
DeepSeek V3
Gemini 2.0 Flash
Qwen-QwQ 32b
Qwen-plus 1127、1220
豆包241215
天工 O1 Preview
hunyuan turbo 1223


#2 前情提要
本評(píng)測(cè)是個(gè)人性質(zhì),結(jié)合自己需求和對(duì)大模型的理解,使用私有題庫(kù)進(jìn)行長(zhǎng)期跟蹤評(píng)測(cè)。不夠權(quán)威,不夠全面。但可以從一個(gè)側(cè)面觀察各個(gè)大模型的長(zhǎng)期進(jìn)化趨勢(shì)。
任何評(píng)測(cè)都無(wú)法給出無(wú)死角的權(quán)威排行榜,筆者寫(xiě)這個(gè)系列也是分享一種評(píng)測(cè)思路,以及個(gè)人見(jiàn)解。每個(gè)人應(yīng)該根據(jù)自己所需,對(duì)大模型進(jìn)行考察。


對(duì)于V3題庫(kù)的說(shuō)明,此處不贅述,新讀者請(qǐng)參見(jiàn):https://zhuanlan.zhihu.com/p/695717926
但請(qǐng)?jiān)试S筆者再次表述一次V3題庫(kù)的局限,新題庫(kù)聚焦最能反映硬邏輯能力的題型,盡可能逼近模型能力極限,因此不再能反映用戶實(shí)際體驗(yàn)??梢园裋3題庫(kù)看作高考用來(lái)拉開(kāi)區(qū)分度的大題(極限能力),但能做對(duì)大題也不代表前面簡(jiǎn)單題就全對(duì)(用戶體驗(yàn))。讀者需要意識(shí)到,你所體驗(yàn)到的大模型能力,是綜合了各種工程優(yōu)化之后的結(jié)果,不單是邏輯能力。


#3 題目和打分
本次增加Hard題1道,此處列出所有題目大綱和核心考點(diǎn)
1、程序改錯(cuò):代碼理解
2、基于多重規(guī)則判斷單據(jù)合法性:規(guī)則理解,復(fù)雜約束,日期計(jì)算
3、旅游路徑規(guī)劃:長(zhǎng)文本理解,工具調(diào)用能力
4、【Medium】公元紀(jì)年推算天干紀(jì)年:計(jì)算能力,規(guī)則理解
5、【Medium】閱讀代碼輸出結(jié)果:代碼理解,代碼推導(dǎo)
6、【Medium】計(jì)算有時(shí)間重疊下最少會(huì)議室數(shù)量:計(jì)算能力
7、【Medium】從代碼中推測(cè)json結(jié)構(gòu):代碼理解,短期記憶,數(shù)據(jù)結(jié)構(gòu)理解
8、【Medium】提供上下文的代碼補(bǔ)全:代碼理解,指令遵守
9、【Medium】密文解碼:模擬計(jì)算
10、【Medium】棋盤(pán)上的圖形:圖形想象,二維記憶能力
11、【Medium】不提供規(guī)則,閱讀某中文編程代碼,并推導(dǎo)輸出:符號(hào)理解,遷移學(xué)習(xí)能力
12、【Medium】撲克牌按規(guī)則洗牌求順序:規(guī)則遵循,一維記憶
13、【Medium】正則匹配:推理推演正則匹配結(jié)果
14、【Medium】4x4 數(shù)獨(dú)題:多步推理,短期記憶,規(guī)則遵循
15、【Medium】島嶼面積計(jì)算:DFS非編程推算
16、【Medium】信息提取:指令遵守,文本迷惑性,輸出格式要求
17、【Medium】第2題進(jìn)階版,增加輸出要求,增加題目細(xì)節(jié)
18、【Medium】第6題變體,增加會(huì)議室數(shù)量,會(huì)議人數(shù)條件約束
19、【Medium】故事推理,故事包含復(fù)雜物品交換規(guī)則,求最終物品和主人對(duì)應(yīng)關(guān)系
20、【Hard】按規(guī)則擰魔方后求魔方顏色:三維記憶能力
21、【Hard】符號(hào)重定義后求表達(dá)式:規(guī)則理解,邏輯陷阱
22、【Hard】壓縮算法模擬:規(guī)則理解,文本計(jì)算
23、【Hard】按提示猜單詞:利用規(guī)則推導(dǎo),排除干擾
24、【Hard】給定熱量的沙拉搭配:數(shù)學(xué)計(jì)算,數(shù)學(xué)規(guī)則
25、【Hard】二維字符迷宮:求入口到出口路徑
26、【Hard】模擬桌游:提供相互影響的復(fù)雜規(guī)則,推導(dǎo)4位玩家的結(jié)局狀態(tài)
27、【Hard】幾何計(jì)算:多條線段求交點(diǎn):直線方程,幾何理解【New】


其中【Hard】是指目前正確率偏低的題目?!綧edium】指回答正確率接近半數(shù)的題目。
打分規(guī)則
1、每道題有至少1個(gè)得分點(diǎn),回答每正確一點(diǎn)即得1分。最終得分是得分除以得分點(diǎn)總數(shù),再乘以10。(即每道題滿分10分)
2、要求推導(dǎo)過(guò)程必須正確,猜對(duì)的答案不得分。
3、要求回答必須完全符合題目要求,如果明確要求不寫(xiě)解釋,而回答包含了解釋部分,即使正確,也記0分。


#4 成績(jī)解析
1)O1:基本通關(guān)V3題庫(kù),除了個(gè)別題目的個(gè)別細(xì)化陷阱點(diǎn)未識(shí)別到導(dǎo)致扣分,其他題目均滿分,包括對(duì)大模型不友好的逐字符問(wèn)題,滿分率80%。O1由于隱藏了思考過(guò)程,回答結(jié)果相當(dāng)簡(jiǎn)略,大部分問(wèn)題直接給出答案,和簡(jiǎn)單的對(duì)答案的解析(并不是過(guò)程)。幾道和字符相關(guān)的問(wèn)題,如15島嶼面積,O1并沒(méi)有像其他所有模型那樣直接數(shù)字符個(gè)數(shù),而是有一點(diǎn)人的直覺(jué),知道要從二維視角全盤(pán)審查。25迷宮問(wèn)題,先前模型基本卡在第一個(gè)岔路口,得分極低,O1是首次全對(duì),但沒(méi)有給推導(dǎo)過(guò)程。
由于Hard題偏少,目前的測(cè)試并不能反映O1的極限素質(zhì),還有待后續(xù)的進(jìn)一步加測(cè)。

2)Gemini 2.0 Flash和thinking-exp:Flash作為輕量模型,確實(shí)離之前Exp系列有一些差距。個(gè)別難題Exp能穩(wěn)定做對(duì)的,F(xiàn)lash依然拿不到分。但其他問(wèn)題僅比Exp多一些小錯(cuò)誤,落后幅度很小。并且在需要逐步推導(dǎo)的題目中,比Exp有更明顯的思維連模式。
而思維鏈版本的thinking模型就比較厲害了,直接追平O1 mini,并且輸出速度也要比mini快。二者對(duì)比的話,O1 mini在處理逐字符問(wèn)題上更得心應(yīng)手,flash對(duì)編程問(wèn)題得分稍高。而計(jì)算,逐步推導(dǎo)這類(lèi)思維鏈優(yōu)勢(shì)項(xiàng)目,flash和O1 mini基本都是滿分。

3)DeepSeek V3:DeepSeek在10號(hào)更新一版V2.5之后預(yù)告V3,但沒(méi)想到僅過(guò)了2周V3就來(lái)了,小作坊下料就是猛。V3官方宣稱能力在4o之上,實(shí)測(cè)確實(shí)如此。二者相比,V3有部分題目思維鏈模式發(fā)揮優(yōu)勢(shì),得分比4o高。這部分題目V3和之前R1 Lite的推導(dǎo)流程如出一轍。而余下題目,4o靠更低失誤率扳回不少分。不難推測(cè),普通用戶實(shí)際使用,或者用簡(jiǎn)單問(wèn)題考察,可能發(fā)現(xiàn)4o更好,這也符合預(yù)期。
V3還是保留了許多2.5的硬傷,編程能力下降還未恢復(fù),R1 Lite做的對(duì)的數(shù)學(xué)題,V3只能對(duì)一半,可見(jiàn)V3并不是R1的完整版??梢灶A(yù)見(jiàn)下一個(gè)版本有望打進(jìn)前三。

4)Qwen系列:本次參與評(píng)測(cè)的有來(lái)個(gè)模型,先說(shuō)備受關(guān)注的QwQ。QwQ總分和gemini flash相近,二者對(duì)比,QwQ在部分字符處理,計(jì)算,多步推導(dǎo)相關(guān)問(wèn)題上優(yōu)勢(shì)明顯,flash錯(cuò)誤率極高。而剩余的同樣需要多步推導(dǎo),但難度更高的問(wèn)題上,QwQ明顯力不從心,表現(xiàn)甚至不如flash。而QwQ似乎沒(méi)訓(xùn)練過(guò)編程題目,相關(guān)問(wèn)題得分低下??傮w來(lái)看QwQ實(shí)驗(yàn)驗(yàn)證性質(zhì)偏多,還難以用于線上生產(chǎn)。
plus系列相比自家max系列,迭代更頻繁,價(jià)格也更低,但實(shí)力整體和max接近。二者在多數(shù)題目上回答近似,得分近似,互有優(yōu)劣,但相差不大。plus在細(xì)節(jié)處理上更好,max在需要更多步推理的問(wèn)題上表現(xiàn)更好。
值得注意的是,plus最后一次更新1220版,整體劣于1127。

5)豆包:長(zhǎng)期以來(lái),豆包憑借運(yùn)營(yíng)推廣,和綜合服務(wù)多樣性獲得了較多的用戶口碑。但豆包的模型能力和用戶口碑并不匹配,硬實(shí)力只在第二梯隊(duì)末尾。豆包Pro 1215更新,模型能力提升巨大,總分來(lái)到了57分,進(jìn)入第一梯隊(duì)。官方宣稱和4o能力相當(dāng),對(duì)比來(lái)看,豆包在大部分問(wèn)題上稍弱于4o,表現(xiàn)在細(xì)節(jié)疏漏較多,復(fù)雜指令要求遵循不到位。但也有少數(shù)題目,豆包憑借微弱的長(zhǎng)文本理解優(yōu)勢(shì),得分稍高。用戶體驗(yàn)應(yīng)該是不如4o,但相差已經(jīng)不遠(yuǎn)。


#5 附錄 - 歷史成績(jī)
歷史成績(jī)只展示百分值,具備可比性。




#6 全年
去年的全年總結(jié)里( https://zhuanlan.zhihu.com/p/673886532)有寫(xiě)到,彼時(shí)國(guó)內(nèi)能超越ChatGPT3.5的模型還只有文心4.0通義2.1兩個(gè),而今年底主流廠商基本都完成了對(duì)3.5的超越,并且有廠商已深入到GPT4和同代的O1區(qū)間。來(lái)自北美的大模型廠商領(lǐng)先時(shí)間從去年11-12個(gè)月,被縮短到3-4個(gè)月。在語(yǔ)言大模型以外的領(lǐng)域,像文生圖,文生視頻,國(guó)內(nèi)也不斷涌現(xiàn)出新的勢(shì)力,與北美頭部也有一戰(zhàn)之力。
另一方面我們也不能忽視北美廠商的先發(fā)優(yōu)勢(shì)依然強(qiáng)大,創(chuàng)新能力鋒銳不減。2025年將是淘汰賽的一年,預(yù)計(jì)國(guó)內(nèi)頭部在保持追趕的同時(shí),中尾部跟不上的玩家將逐漸被淘汰出局。競(jìng)爭(zhēng)依然殘酷。
為了應(yīng)對(duì)明年頭部紛紛向思維鏈和融合模式轉(zhuǎn)化,目前V3題庫(kù)也需要進(jìn)一步擴(kuò)充,計(jì)劃將Hard題型占比提升到50%以上,重點(diǎn)補(bǔ)充復(fù)雜計(jì)算、人類(lèi)直覺(jué)、圖形推理三類(lèi)題目。希望筆者的評(píng)測(cè)在25年依然能幫到各位讀者,管中窺豹,從另一個(gè)側(cè)面了解大模型進(jìn)化。


本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
用AI做考研數(shù)學(xué)一,我得了136分
考研數(shù)學(xué)得126分、還能編寫(xiě)小游戲,智譜首個(gè)推理模型來(lái)了,人人免費(fèi)用
我們舉辦了一場(chǎng)推理模型“年終考試”,最終奪冠的居然是
火山引擎“奇襲”阿里云
大模型“價(jià)格戰(zhàn)”爆發(fā),誰(shuí)能搶占商業(yè)化制高點(diǎn)?|價(jià)格戰(zhàn)
大模型“免費(fèi)”送,廠商們圖什么?
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服