日活用戶突破2000萬，與中國移動、華為、金山辦公、吉利汽車等企業(yè)相繼達(dá)成合作，DeepSeek迎來了高光時刻。

在互聯(lián)網(wǎng)巨頭爭相進(jìn)入AI行業(yè)的今天，企業(yè)為實現(xiàn)技術(shù)領(lǐng)先，紛紛斥巨資買數(shù)據(jù)和算力芯片，打造萬卡集群。然而DeepSeek卻選擇了與眾不同的以“花小錢辦大事”路線，推出的V3模型訓(xùn)練成本僅557.6萬美元，最新的R1模型，則以V3模型為基座，號稱能力不輸OpenAI開發(fā)的o1大模型。

在訓(xùn)練成本僅為其他AI大模型數(shù)十分之一的前提下，DeepSeek-R1真的能夠持平o1大模型，傲視國內(nèi)諸多AI大模型嗎？

實踐出真知，小雷決定將其與國內(nèi)用戶數(shù)量較高、名氣較大的豆包、Kimi、文心一言、通義千問四款A(yù)I大模型進(jìn)行對比，測試DeepSeek-R1是否真如宣傳中一般強(qiáng)大。

挑戰(zhàn)四大AI大模型，

DeepSeek技高一籌？

架構(gòu)優(yōu)化、算力升級后、參數(shù)量增加后，AI大模型的功能愈發(fā)豐富，值得挖掘的細(xì)節(jié)也越來越多。本次測試，小雷選擇了我們?nèi)粘Ｊ褂幂^多的內(nèi)容分析、創(chuàng)意寫作、數(shù)學(xué)推理三個項目。

參與測試的五款大模型，具體版本分別為DeepSeek-R1、豆包云雀、Kimi-k1.5、文心3.5、通義千問2.5，均可免費使用。

內(nèi)容分析：DeepSeek-R1傲視群雄

為加快工作效率，不少職場人士會使用AI工具幫忙總結(jié)文檔、PDF等文件。小雷挑選了京東、第一財經(jīng)聯(lián)合發(fā)布的《2024年輕人生活方式及營銷趨勢》文檔，測試各大AI大模型能否總結(jié)出重點內(nèi)容，幫助小雷快速了解2024年年輕消費群體的特點。

此前小雷評測AI大模型時，曾吐槽AI大模型難以分析出文檔的核心內(nèi)容，導(dǎo)致輸出的結(jié)果車轱轆話來回轉(zhuǎn)，但短短三四個月時間過去，AI大模型的文檔總結(jié)能力已得到了飛躍性的提升。

本輪測試中，除了通義千問沒有明顯進(jìn)步，總結(jié)的內(nèi)容過于簡略，信息缺失嚴(yán)重外，其他幾款大模型均表現(xiàn)出色，尤其是豆包和Kimi，不但總結(jié)出了2024年的十大趨勢，還對2025年的生活方式趨勢展望進(jìn)行了歸類。同時，Kimi還指出，90后和00后消費占比過半，強(qiáng)調(diào)了年輕消費群體的重要性。文心一言表現(xiàn)則中規(guī)中矩，總結(jié)出了2024年的十大趨勢，卻忽略了2025年展望的相關(guān)內(nèi)容。

（圖源：通義千問截圖）

作為本次評測的主角，DeepSeek-R1表現(xiàn)更為出色，在總結(jié)出的每一個趨勢下，還會加入一些數(shù)據(jù)或產(chǎn)品作為事例，與觀點互相印證，增強(qiáng)內(nèi)容的可靠性。許多AI撰寫的文章能夠一眼認(rèn)出，原因就在于AI生成的內(nèi)容較為空虛，沒能落到實處，經(jīng)常缺乏例證，DeepSeek-R1顯然已進(jìn)入了更高層次。

（圖源：DeepSeek截圖）

總的來說，本輪測試中DeepSeek-R1證明了自己名副其實，表現(xiàn)超越其他四款A(yù)I大模型。而另外四款A(yù)I大模型中，豆包和Kimi的表現(xiàn)則明顯高出一個層次，免費版的文心3.5表現(xiàn)一般，通義千問則表現(xiàn)較差。

創(chuàng)意內(nèi)容撰寫：DeepSeek再勝一場

2月5日，小說平臺閱文集團(tuán)和數(shù)字出版社中文在線接連宣布，已接入DeepSeek-R1，將通過AI提高作者的創(chuàng)作效率，但AI真的能夠取代網(wǎng)文作者嗎？

小雷要求AI大模型以古龍風(fēng)格寫一篇5000字到10000字的武俠小說，并輸入大綱：

天南劍宗第一高手葉飛霜與太玄門掌門慕容宸約戰(zhàn)華山之巔，雙方各帶本門弟子助陣。慕容宸卻暗中與五大黑道勢力合作，企圖徹底消滅天南劍宗。
然而天南劍宗實則為六扇門安插在江湖的勢力，目的便是借助此次門派約戰(zhàn)引出黑道勢力，并將其一舉消滅。在黑道勢力聯(lián)手太玄門圍攻天南劍宗弟子時，六扇門大軍背后包抄，徹底消滅了為禍一方的黑道勢力和太玄門。

與此前限定范圍的測試不同，寫武俠小說雖有大綱限制，但可發(fā)揮空間極大，各大AI大模型之間的差距和風(fēng)格也會表現(xiàn)出較為明顯的差異。

本輪測試中，豆包和Kimi在撰寫時，分別為其取名為《劍影風(fēng)云錄》和《龍影霜華錄》，與古龍大多數(shù)小說的取名風(fēng)格并不相符，反而更像梁羽生的習(xí)慣。DeepSeek-R1、文心一言并未為小說取名，通義千問則是簡單地命名為《華山之巔》。

（圖源：豆包截圖）

內(nèi)容方面，通義千問依然是倒數(shù)，缺乏細(xì)節(jié)描寫和轉(zhuǎn)折，小雷未提到的人名或幫派名稱，通義千問也沒有主動加入任何一個。Kimi生成的內(nèi)容質(zhì)量更好一些，細(xì)節(jié)較為豐富，對于大綱的理解也更加到位，但與通義千問相同，僅僅是在大綱原定的人物著筆。

DeepSeek-R1、文心一言、豆包生成的內(nèi)容質(zhì)量更好，人物、招式、門派名稱齊全，且劇情存在不少轉(zhuǎn)折，還主動豐富了細(xì)節(jié)。例如DeepSeek-R1撰寫的小說中，兩位主人公原本是好朋友，因女人反目成仇，為續(xù)寫埋下了伏筆；文心一言生成的內(nèi)容中，葉飛霜在戰(zhàn)斗中差點走火入魔，得到師兄相助才反敗為勝；豆包則主動續(xù)寫了一段內(nèi)容，加入了葉飛霜功成名就后，被身邊摯友背叛的情節(jié)。

（圖源：DeepSeek截圖）

遺憾的是，文心一言生成的內(nèi)容忽視了大綱中的六扇門，將故事完全寫成了江湖恩怨，豆包續(xù)寫的內(nèi)容反派刻畫太少，導(dǎo)致小雷對其的評分稍微降低了一些。

這一輪測試DeepSeek-R1的表現(xiàn)依然遠(yuǎn)遠(yuǎn)領(lǐng)先其他AI大模型，但并不是其他幾款A(yù)I大模型表現(xiàn)不好，文心一言和豆包的表現(xiàn)已經(jīng)超過了小雷的預(yù)期，只是DeepSeek-R1的表現(xiàn)太好了，有情感糾葛、劇情轉(zhuǎn)折，尤其是結(jié)尾部分的內(nèi)容，頗有古龍遺風(fēng)。

現(xiàn)階段AI大模型寫小說依然會有些吃力，需要用戶盡可能將大綱細(xì)化。小雷匆忙想出的大綱過于籠統(tǒng)，或許是通義千問和Kimi表現(xiàn)不好的原因之一。

數(shù)學(xué)推理：AI大模型永遠(yuǎn)的痛

2024年蘋果工程師曾發(fā)表了一篇論文，吐槽AI大模型并沒有真實的數(shù)學(xué)推理能力，AI企業(yè)的宣傳存在夸大成分。隨后，各大AI企業(yè)紛紛以“復(fù)雜推理”為噱頭，陸續(xù)推出了全新的大模型版本。然而數(shù)月時間過去，AI大模型真的具備推理能力了嗎？

本輪測試小雷選擇的數(shù)學(xué)題是2024年高考一卷第十四題，具體內(nèi)容為：

甲、乙兩人各有四張卡片，每張卡片上標(biāo)有一個數(shù)字，甲的卡片上分別標(biāo)有數(shù)字1，3，5，7，乙的卡片上分別標(biāo)有數(shù)字2，4，6，8，兩人進(jìn)行四輪比賽，在每輪比賽中，兩人各自從自己持有的卡片中隨機(jī)選一張，并比較所選卡片上數(shù)字的大小，數(shù)字大的人得1分，數(shù)字小的人得0分，然后各自棄置此輪所選的卡片棄置的卡片在此后輪次中不能使用則四輪比賽后，甲的總得分不小于2的概率為？（正確答案：1/2）

站在人類的角度上，這道題的難度其實并不高，哪怕將每一種可能全部列出來再計算，所需的時間也不會特別多。然而在AI大模型眼中，這道題卻是難上了天，DeepSeek-R1、豆包給出的答案都是17/24，Kimi、文心一言、通義千問給出的答案分別是1971/4096、243/256、551/576，居然再一次全部陣亡。

（圖源：DeepSeek截圖）

隨后小雷又用OpenAI的o1、o3 mini、GPT-4o三款大模型進(jìn)行了計算，這三款大模型都算出了正確答案，但細(xì)節(jié)上也存在一些問題，如o1模型輸出內(nèi)容時出現(xiàn)了2=1/2，但不影響其計算出了正確答案。該情況表明，在數(shù)學(xué)推理方面，DeepSeek-R1與OpenAI旗下的大模型可能還有一定的差距。

（圖源：o1大模型截圖）

最有趣的不是這些離譜的答案，而是AI大模型的推理過程，DeepSeek-R1和Kimi-k1.5會不斷打斷自己的思考過程，選擇新的方案。數(shù)學(xué)推理依然是當(dāng)前AI大模型難以攻克的關(guān)隘，前兩項測試領(lǐng)先其他國產(chǎn)AI大模型的DeepSeek-R1，也在本輪測試中未能拉開差距。

盛名之下無虛士，

DeepSeek的榮耀實至名歸

2024年12月，DeepSeek-V3大模型剛上線之時，小雷便對其進(jìn)行了測試。當(dāng)時小雷的評價是，DeepSeek-V3在內(nèi)容總結(jié)、文字生成方面能夠媲美豆包、Kimi，但功能豐富性遠(yuǎn)不及其他AI智能體。

僅一個多月時間過去，基于V3大模型調(diào)整的R1大模型就實現(xiàn)了質(zhì)的飛躍，在內(nèi)容總結(jié)、文字生成方面相較赫赫有名的豆包、Kimi、文心一言、通義千問等AI大模型居然領(lǐng)先不少。當(dāng)然，數(shù)學(xué)推理方面大家還是一樣地“菜”，OpenAI仍處于領(lǐng)先地位。

DeepSeek-R1僅僅做到能力強(qiáng)，無法造成這么大的影響，最關(guān)鍵的是其訓(xùn)練成本大約只有600萬美元，遠(yuǎn)低于GPT-4，預(yù)計只有GPT-5的1/200甚至更低。

（圖源：豆包AI生成）

過去我們的認(rèn)知中，提升AI大模型的行業(yè)需要堆算力、買數(shù)據(jù)，AI企業(yè)也確實在這樣做，如小米要建萬卡集群、字節(jié)跳動計劃在2025年投入400億元購買AI算力芯片。Macquarie分析師質(zhì)疑DeepSeek隱瞞了開發(fā)成本，經(jīng)過他們的計算，R1大模型的訓(xùn)練成本應(yīng)該在26億美元左右。

DeepSeek卻告訴我們，只需要數(shù)百萬美元，折合人民幣不到9位數(shù)，就能訓(xùn)練出媲美OpenAI o1大模型的產(chǎn)品。因DeepSeek-R1的沖擊，最近一段時間全球算力芯片主要提供者NVIDIA股價一路狂跌，近兩天雖有所回暖，但依然未能回到巔峰時期。

借助DeepSeek-R1的卓越表現(xiàn)，DeepSeek瞬間成為了AI行業(yè)的香餑餑，與各行各業(yè)巨頭達(dá)成合作，甚至在工業(yè)AI領(lǐng)域?qū)嵙Τ旱娜A為，也讓小藝接入了DeepSeek-R1。因用戶數(shù)量太多，近期DeepSeek官網(wǎng)頻頻出現(xiàn)服務(wù)器繁忙，API調(diào)用充值入口也因人數(shù)太多被關(guān)閉。

DeepSeek-R1訓(xùn)練和推理成本雖低，可大量用戶涌入，DeepSeek當(dāng)前擁有的算力，已無法滿足用戶的需求。中國企業(yè)最擅長的就是從1到正無窮，DeepSeek指明了道路，其他AI企業(yè)將快速跟上。DeepSeek若想留住這波流量，增加算力規(guī)模、提高用戶體驗迫在眉睫。

End