久久精品国产欧美日韩亚洲,天天操狠狠操,国产三级在线观看播放大学生

12月AI大模型橫評(píng)-O1第一，deepseek第五

2025.01.01 四川

知乎上業(yè)界玩家做的這個(gè)大模型真實(shí)評(píng)測(cè)排名，還有一定參考價(jià)值。轉(zhuǎn)發(fā)給大家。

#1 參賽選手
本次新增模型：
O1
gemini-2.0-flash-thinking-exp-1219
DeepSeek V3
Gemini 2.0 Flash
Qwen-QwQ 32b
Qwen-plus 1127、1220
豆包241215
天工 O1 Preview
hunyuan turbo 1223

#2 前情提要
本評(píng)測(cè)是個(gè)人性質(zhì)，結(jié)合自己需求和對(duì)大模型的理解，使用私有題庫(kù)進(jìn)行長(zhǎng)期跟蹤評(píng)測(cè)。不夠權(quán)威，不夠全面。但可以從一個(gè)側(cè)面觀察各個(gè)大模型的長(zhǎng)期進(jìn)化趨勢(shì)。
任何評(píng)測(cè)都無(wú)法給出無(wú)死角的權(quán)威排行榜，筆者寫(xiě)這個(gè)系列也是分享一種評(píng)測(cè)思路，以及個(gè)人見(jiàn)解。每個(gè)人應(yīng)該根據(jù)自己所需，對(duì)大模型進(jìn)行考察。

對(duì)于V3題庫(kù)的說(shuō)明，此處不贅述，新讀者請(qǐng)參見(jiàn)：https://zhuanlan.zhihu.com/p/695717926
但請(qǐng)?jiān)试S筆者再次表述一次V3題庫(kù)的局限，新題庫(kù)聚焦最能反映硬邏輯能力的題型，盡可能逼近模型能力極限，因此不再能反映用戶實(shí)際體驗(yàn)?？梢园裋3題庫(kù)看作高考用來(lái)拉開(kāi)區(qū)分度的大題（極限能力），但能做對(duì)大題也不代表前面簡(jiǎn)單題就全對(duì)（用戶體驗(yàn)）。讀者需要意識(shí)到，你所體驗(yàn)到的大模型能力，是綜合了各種工程優(yōu)化之后的結(jié)果，不單是邏輯能力。

#3 題目和打分
本次增加Hard題1道，此處列出所有題目大綱和核心考點(diǎn)：
1、程序改錯(cuò)：代碼理解
2、基于多重規(guī)則判斷單據(jù)合法性：規(guī)則理解，復(fù)雜約束，日期計(jì)算
3、旅游路徑規(guī)劃：長(zhǎng)文本理解，工具調(diào)用能力
4、【Medium】公元紀(jì)年推算天干紀(jì)年：計(jì)算能力，規(guī)則理解
5、【Medium】閱讀代碼輸出結(jié)果：代碼理解，代碼推導(dǎo)
6、【Medium】計(jì)算有時(shí)間重疊下最少會(huì)議室數(shù)量：計(jì)算能力
7、【Medium】從代碼中推測(cè)json結(jié)構(gòu)：代碼理解，短期記憶，數(shù)據(jù)結(jié)構(gòu)理解
8、【Medium】提供上下文的代碼補(bǔ)全：代碼理解，指令遵守
9、【Medium】密文解碼：模擬計(jì)算
10、【Medium】棋盤(pán)上的圖形：圖形想象，二維記憶能力
11、【Medium】不提供規(guī)則，閱讀某中文編程代碼，并推導(dǎo)輸出：符號(hào)理解，遷移學(xué)習(xí)能力
12、【Medium】撲克牌按規(guī)則洗牌求順序：規(guī)則遵循，一維記憶
13、【Medium】正則匹配：推理推演正則匹配結(jié)果
14、【Medium】4x4 數(shù)獨(dú)題：多步推理，短期記憶，規(guī)則遵循
15、【Medium】島嶼面積計(jì)算：DFS非編程推算
16、【Medium】信息提取：指令遵守，文本迷惑性，輸出格式要求
17、【Medium】第2題進(jìn)階版，增加輸出要求，增加題目細(xì)節(jié)
18、【Medium】第6題變體，增加會(huì)議室數(shù)量，會(huì)議人數(shù)條件約束
19、【Medium】故事推理，故事包含復(fù)雜物品交換規(guī)則，求最終物品和主人對(duì)應(yīng)關(guān)系
20、【Hard】按規(guī)則擰魔方后求魔方顏色：三維記憶能力
21、【Hard】符號(hào)重定義后求表達(dá)式：規(guī)則理解，邏輯陷阱
22、【Hard】壓縮算法模擬：規(guī)則理解，文本計(jì)算
23、【Hard】按提示猜單詞：利用規(guī)則推導(dǎo)，排除干擾
24、【Hard】給定熱量的沙拉搭配：數(shù)學(xué)計(jì)算，數(shù)學(xué)規(guī)則
25、【Hard】二維字符迷宮：求入口到出口路徑
26、【Hard】模擬桌游：提供相互影響的復(fù)雜規(guī)則，推導(dǎo)4位玩家的結(jié)局狀態(tài)
27、【Hard】幾何計(jì)算：多條線段求交點(diǎn)：直線方程，幾何理解【New】

其中【Hard】是指目前正確率偏低的題目?！綧edium】指回答正確率接近半數(shù)的題目。
打分規(guī)則：
1、每道題有至少1個(gè)得分點(diǎn)，回答每正確一點(diǎn)即得1分。最終得分是得分除以得分點(diǎn)總數(shù)，再乘以10。（即每道題滿分10分）
2、要求推導(dǎo)過(guò)程必須正確，猜對(duì)的答案不得分。
3、要求回答必須完全符合題目要求，如果明確要求不寫(xiě)解釋，而回答包含了解釋部分，即使正確，也記0分。

#4 成績(jī)解析
1）O1：基本通關(guān)V3題庫(kù)，除了個(gè)別題目的個(gè)別細(xì)化陷阱點(diǎn)未識(shí)別到導(dǎo)致扣分，其他題目均滿分，包括對(duì)大模型不友好的逐字符問(wèn)題，滿分率80%。O1由于隱藏了思考過(guò)程，回答結(jié)果相當(dāng)簡(jiǎn)略，大部分問(wèn)題直接給出答案，和簡(jiǎn)單的對(duì)答案的解析（并不是過(guò)程）。幾道和字符相關(guān)的問(wèn)題，如15島嶼面積，O1并沒(méi)有像其他所有模型那樣直接數(shù)字符個(gè)數(shù)，而是有一點(diǎn)人的直覺(jué)，知道要從二維視角全盤(pán)審查。25迷宮問(wèn)題，先前模型基本卡在第一個(gè)岔路口，得分極低，O1是首次全對(duì)，但沒(méi)有給推導(dǎo)過(guò)程。
由于Hard題偏少，目前的測(cè)試并不能反映O1的極限素質(zhì)，還有待后續(xù)的進(jìn)一步加測(cè)。

2）Gemini 2.0 Flash和thinking-exp：Flash作為輕量模型，確實(shí)離之前Exp系列有一些差距。個(gè)別難題Exp能穩(wěn)定做對(duì)的，F(xiàn)lash依然拿不到分。但其他問(wèn)題僅比Exp多一些小錯(cuò)誤，落后幅度很小。并且在需要逐步推導(dǎo)的題目中，比Exp有更明顯的思維連模式。
而思維鏈版本的thinking模型就比較厲害了，直接追平O1 mini，并且輸出速度也要比mini快。二者對(duì)比的話，O1 mini在處理逐字符問(wèn)題上更得心應(yīng)手，flash對(duì)編程問(wèn)題得分稍高。而計(jì)算，逐步推導(dǎo)這類(lèi)思維鏈優(yōu)勢(shì)項(xiàng)目，flash和O1 mini基本都是滿分。

3）DeepSeek V3：DeepSeek在10號(hào)更新一版V2.5之后預(yù)告V3，但沒(méi)想到僅過(guò)了2周V3就來(lái)了，小作坊下料就是猛。V3官方宣稱能力在4o之上，實(shí)測(cè)確實(shí)如此。二者相比，V3有部分題目思維鏈模式發(fā)揮優(yōu)勢(shì)，得分比4o高。這部分題目V3和之前R1 Lite的推導(dǎo)流程如出一轍。而余下題目，4o靠更低失誤率扳回不少分。不難推測(cè)，普通用戶實(shí)際使用，或者用簡(jiǎn)單問(wèn)題考察，可能發(fā)現(xiàn)4o更好，這也符合預(yù)期。
V3還是保留了許多2.5的硬傷，編程能力下降還未恢復(fù)，R1 Lite做的對(duì)的數(shù)學(xué)題，V3只能對(duì)一半，可見(jiàn)V3并不是R1的完整版?？梢灶A(yù)見(jiàn)下一個(gè)版本有望打進(jìn)前三。

4）Qwen系列：本次參與評(píng)測(cè)的有來(lái)個(gè)模型，先說(shuō)備受關(guān)注的QwQ。QwQ總分和gemini flash相近，二者對(duì)比，QwQ在部分字符處理，計(jì)算，多步推導(dǎo)相關(guān)問(wèn)題上優(yōu)勢(shì)明顯，flash錯(cuò)誤率極高。而剩余的同樣需要多步推導(dǎo)，但難度更高的問(wèn)題上，QwQ明顯力不從心，表現(xiàn)甚至不如flash。而QwQ似乎沒(méi)訓(xùn)練過(guò)編程題目，相關(guān)問(wèn)題得分低下?？傮w來(lái)看QwQ實(shí)驗(yàn)驗(yàn)證性質(zhì)偏多，還難以用于線上生產(chǎn)。
plus系列相比自家max系列，迭代更頻繁，價(jià)格也更低，但實(shí)力整體和max接近。二者在多數(shù)題目上回答近似，得分近似，互有優(yōu)劣，但相差不大。plus在細(xì)節(jié)處理上更好，max在需要更多步推理的問(wèn)題上表現(xiàn)更好。
值得注意的是，plus最后一次更新1220版，整體劣于1127。

5）豆包：長(zhǎng)期以來(lái)，豆包憑借運(yùn)營(yíng)推廣，和綜合服務(wù)多樣性獲得了較多的用戶口碑。但豆包的模型能力和用戶口碑并不匹配，硬實(shí)力只在第二梯隊(duì)末尾。豆包Pro 1215更新，模型能力提升巨大，總分來(lái)到了57分，進(jìn)入第一梯隊(duì)。官方宣稱和4o能力相當(dāng)，對(duì)比來(lái)看，豆包在大部分問(wèn)題上稍弱于4o，表現(xiàn)在細(xì)節(jié)疏漏較多，復(fù)雜指令要求遵循不到位。但也有少數(shù)題目，豆包憑借微弱的長(zhǎng)文本理解優(yōu)勢(shì)，得分稍高。用戶體驗(yàn)應(yīng)該是不如4o，但相差已經(jīng)不遠(yuǎn)。

#5 附錄 - 歷史成績(jī)
歷史成績(jī)只展示百分值，具備可比性。

#6 全年
去年的全年總結(jié)里（ https://zhuanlan.zhihu.com/p/673886532）有寫(xiě)到，彼時(shí)國(guó)內(nèi)能超越ChatGPT3.5的模型還只有文心4.0和通義2.1兩個(gè)，而今年底主流廠商基本都完成了對(duì)3.5的超越，并且有廠商已深入到GPT4和同代的O1區(qū)間。來(lái)自北美的大模型廠商領(lǐng)先時(shí)間從去年11-12個(gè)月，被縮短到3-4個(gè)月。在語(yǔ)言大模型以外的領(lǐng)域，像文生圖，文生視頻，國(guó)內(nèi)也不斷涌現(xiàn)出新的勢(shì)力，與北美頭部也有一戰(zhàn)之力。
另一方面我們也不能忽視北美廠商的先發(fā)優(yōu)勢(shì)依然強(qiáng)大，創(chuàng)新能力鋒銳不減。2025年將是淘汰賽的一年，預(yù)計(jì)國(guó)內(nèi)頭部在保持追趕的同時(shí)，中尾部跟不上的玩家將逐漸被淘汰出局。競(jìng)爭(zhēng)依然殘酷。
為了應(yīng)對(duì)明年頭部紛紛向思維鏈和融合模式轉(zhuǎn)化，目前V3題庫(kù)也需要進(jìn)一步擴(kuò)充，計(jì)劃將Hard題型占比提升到50%以上，重點(diǎn)補(bǔ)充復(fù)雜計(jì)算、人類(lèi)直覺(jué)、圖形推理三類(lèi)題目。希望筆者的評(píng)測(cè)在25年依然能幫到各位讀者，管中窺豹，從另一個(gè)側(cè)面了解大模型進(jìn)化。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類(lèi)似文章

用AI做考研數(shù)學(xué)一，我得了136分

考研數(shù)學(xué)得126分、還能編寫(xiě)小游戲，智譜首個(gè)推理模型來(lái)了，人人免費(fèi)用

我們舉辦了一場(chǎng)推理模型“年終考試”，最終奪冠的居然是

火山引擎“奇襲”阿里云

大模型“價(jià)格戰(zhàn)”爆發(fā)，誰(shuí)能搶占商業(yè)化制高點(diǎn)？|價(jià)格戰(zhàn)

大模型“免費(fèi)”送，廠商們圖什么？

更多類(lèi)似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版