Kimi為“宕機”致歉21日下午,月之暗面旗下大模型應用kimi的APP和小程序均無法正常使用。此前,月之暗面發(fā)布情況說明:從2024.3.209:30:00開始,觀測到Kimi的系統(tǒng)流量持續(xù)異常增高,流量增加的趨勢遠超對資源的預期規(guī)劃。這導致了從2024.3.2010:00:00開始,有較多的SaaS客戶持續(xù)的體驗到429:engine is overloaded的異常問題,并對此表示深表抱歉。在一個Kimi團隊與用戶溝通的群里,Kimi方面人員表示,“Kimi從昨天開始用戶量增速很快,工程師已經(jīng)緊急擴容了幾次,還在實施更多應急措施?!盞imi訪問量的激增讓這家公司的網(wǎng)絡一度陷入癱瘓。公開資料顯示,月之暗面由90后楊植麟創(chuàng)立,成立于2023年3月1日,目前已完成三筆融資。今年2月,該公司完成一筆大額融資,以15億美元投前估值完成超10億美元B輪,阿里領投,礪思資本、小紅書跟投,投后估值約25億美元,是國內最主要的大模型獨角獸之一。長文本無損壓縮是上述公司瞄準的一個方向。據(jù)楊植麟介紹,長文本作為公司“登月”的第一步,是新的計算機內存,很本質,個性化并非通過微調實現(xiàn),上下文定義了個性化過程。楊植麟還認為,大模型“馬拉松剛開始,接下來會有更多差異化”。在20萬漢字的基礎上,Kimi又將上下文長度提升至200萬。關于長度提升后有何變化,21日,月之暗面相關負責人告訴第一財經(jīng)記者,這會進一步幫助打開對AI應用場景的想象力,包括完整代碼庫分析理解、可自主幫人類完成多步驟復雜任務的智能體Agent、不會遺忘關鍵信息的終身助理、真正統(tǒng)一架構的多模態(tài)模型等。“簡單來說,文本長度長就可以跟AI一直對話,AI不會'遺忘’之前的對話內容,還能有比較好的理解。同時,一個項目代碼可達幾百萬行,如果大模型支持的文本長度不夠長,就沒法理解并輔助工作。”有IT人員向記者解釋。就“長文本是否是未來競爭的一個差異化方向,抑或大模型廠商都在共同追逐的目標,長文本意味著什么?”的問題,一名大廠大模型研究人員告訴記者,目前判斷一個大模型是否強大,還是基于指定評估數(shù)據(jù)集和用戶日常聊天體驗,但文本長度普遍有限,這限制了商業(yè)價值。在實際應用中,很多時候需要考慮的是需處理的巨大信息量。如果大模型能解決長文本問題,潛在價值是巨大的,例如投喂財務數(shù)據(jù)輸出完整財報、投喂大量病例情況讓大模型幫助解決醫(yī)學問題。“但值得注意的是,長文本擴展并不一定意味著實際效果足夠好,還需要有足夠理解能力以及對人類指令的遵循能力,文本之外,圖像及文本大模型有更多token需要處理,需要足夠長的上下文能力支持。除文本的長上下文外,要實現(xiàn)AGI(通用人工智能)還需要有同時處理時空物多維度信息的能力?!鄙鲜鲅芯繂T說。而對于目前“與哪些上市公司展開合作”的問題,月之暗面并沒有正面回復。該公司負責人對記者表示,其開放平臺是面向所有開發(fā)者和企業(yè)用戶開放的,任何合規(guī)的開發(fā)者和企業(yè)都可以將 Kimi 智能助手背后的同款大模型API接入到自己的產(chǎn)品或服務中,基于 Kimi 大模型卓越的長文本處理和指令遵循能力,升級或打造新的產(chǎn)品或服務。
能趕上GPT4嗎?Kimi“引爆”概念股,一定程度上顯現(xiàn)資本市場對國產(chǎn)大模型能力躍進的期待。此外,近期國產(chǎn)大模型密集發(fā)布,廠商最頻繁使用的一個詞匯是“逼近”,強調自身技術實力“逼近GPT4”。資本市場聞風而動、大模型密集發(fā)布背后,國產(chǎn)大模型能趕上GPT4了嗎?一位人工智能行業(yè)人士對記者表示,由于目前大模型企業(yè)之間并無明確的對比項目,大多通過打榜的形式來佐證自身實力,因此無法通過嚴謹?shù)牡谌綌?shù)據(jù)來區(qū)分廠商之間的技術差距,但可以明確的是,自從OpenAI將GPT4閉源后,國內廠商與其差距目前仍較大。多名業(yè)內人士也提到過國內廠商與硅谷廠商之間的差距。智象未來創(chuàng)始人兼CEO、加拿大工程院外籍院士梅濤表示,從通用大模型的角度來說,中國廠商與硅谷廠商之間的差距有被拉大的風險,原因包括人才密度問題、資源問題。2023年,中國初創(chuàng)公司做通用大模型的公司用一千張卡的資源來對標ChatGPT3.5,今年則用萬張卡級別資源對標ChatGPT4,而硅谷目前已經(jīng)考慮十萬級甚至百萬級的卡做對應的事情,對比缺口比較大。相對來講,梅濤認為多模態(tài)生成式領域的對比差距相對好一點,不論是Sora還是Midjourney,這個領域生成式模型基本上參數(shù)都在百億級規(guī)模左右,該規(guī)模搭配千張卡左右的資源,創(chuàng)業(yè)公司通過早期融資還是可以實現(xiàn)的。對這個差距沒有那么大的領域,梅濤認為中國企業(yè)應優(yōu)先考慮的是如何在產(chǎn)業(yè)化方面做好產(chǎn)品迭代以及商業(yè)化,這些角度中國廠商很有可能比國外企業(yè)更快更敏捷。瀾舟科技創(chuàng)始人兼CEO周明認為,目前中國在大模型算法上原創(chuàng)技術能力并不差,但在頂層設計上可以跟美國學習,或比美國做得更好。周明認為國內缺乏一個國家機制或聯(lián)盟體來定義一個大模型未來發(fā)展的必要趨勢。這個問題一旦解決,中國的人才便可以快速攻關,雖然算力不足的問題尚存在,但通過算法或應用發(fā)力,可以彌補算力不足的問題。此外,周明認為國內大模型企業(yè)要跟國家的發(fā)展大趨勢配合,而非一味去與美國相關企業(yè)看齊。他稱,很多國內大模型企業(yè)只知與美國企業(yè)看齊,亦步亦趨,后者提出一個技術點,國內便想要跟上或進行改良。更合適的動作應從綜合趨勢上進行推進,最為重要的是應用驅動。中國大模型相關企業(yè)與美國企業(yè)相比,在應用場景等方面雖然沒有大的優(yōu)勢,但也不占劣勢。如果在場景和應用角度去反向驅動各個應用,推動國家經(jīng)濟和生產(chǎn)力各個方面提升,中國基礎創(chuàng)新能力有可能在下一輪 AI 創(chuàng)新中引領國際潮流。談及近一年人工智能領域的動態(tài),中關村數(shù)智人工智能產(chǎn)業(yè)聯(lián)盟理事長,原小米集團副總裁崔寶秋是興奮的,他稱,看好大數(shù)據(jù)和深度學習帶來新一代AI技術的快速發(fā)展。從時間線上來看,一年多前大模型的發(fā)布仍存在“胡說八道”的問題,讓人感覺很不靠譜。但在2023年,崔寶秋去到美國,接觸大模型最新技術前沿,令他感受到新的時代到來,雖然大模型技術目前是美國引領,但中國企業(yè)也在快速跟進。梅濤近一年也在頻繁往返中國與美國硅谷,在他看來,最新的體感就是中美生態(tài)確實不太一樣,例如在投融資方面,不管是融資還是公司的估值方面,中美企業(yè)之間的差距是巨大的,特別是融資的環(huán)境,希望今年有所改變。另外,雖說2024年是創(chuàng)新元年,但就遍地是黃金嗎?周明認為不是,國內大模型領域很多地方都沒有開拓出來,比如大模型如何結合最后一公里、大模型的商業(yè)模式是什么、如何加強交付能力、提高產(chǎn)品的標準化,這些才剛剛開始,方興未艾。微信編輯 | 高莉珊