▲堅(jiān)持長(zhǎng)期視角,專注底層創(chuàng)新,探索新的路徑。圖/DeepSeek界面截圖
一家此前不在多數(shù)媒體的“明星企業(yè)”列表中的“小企業(yè)”,一家走開源路線而非走閉源或率先開發(fā)應(yīng)用的“創(chuàng)新組織”,卻意外在2025年開年成為了中國(guó)大模型領(lǐng)域科技創(chuàng)新的全球代表。
據(jù)多家媒體報(bào)道,這家名為DeepSeek(深度求索)的中國(guó)大模型企業(yè),最近發(fā)布的大模型,在多項(xiàng)性能測(cè)試中已經(jīng)達(dá)到了OpenAI的最新大模型o1水平,部分項(xiàng)目還實(shí)現(xiàn)了超越。由此引發(fā)了全球科技行業(yè)的熱烈討論,有媒體形容“DeepSeek朝硅谷‘開了一槍’”,甚至“震動(dòng)美國(guó)科技界”。
底層創(chuàng)新提升算力效率
DeepSeek當(dāng)前所創(chuàng)造的“神話”,主要是兩類敘事。第一類,是DeepSeek的算力成本投入與表現(xiàn)出來(lái)的性能對(duì)比,超出了行業(yè)的一般認(rèn)知。據(jù)部分行業(yè)媒體報(bào)道,DeepSeek r1的訓(xùn)練成本僅為ChatGPT o1的零頭。第二類神話則是,DeepSeek的成功證明了開源路線的逆襲勝利,對(duì)大公司、巨頭的閉源路線進(jìn)行了一次底層顛覆。
這兩類看法被灌注到社交平臺(tái)上進(jìn)行廣泛討論后,事實(shí)上都或多或少因人們的真誠(chéng)期待而略有扭曲。例如,DeepSeek r1的真實(shí)算力成本投入遠(yuǎn)不止600萬(wàn)美元,且最早報(bào)道的媒體混淆了DeepSeek在論文中提及的訓(xùn)練成本。根據(jù)原文,550萬(wàn)美元是DeepSeek v3在正式訓(xùn)練階段的成本,不包括前期研究、實(shí)驗(yàn)的成本。
并且,從行業(yè)發(fā)展的邏輯看,探索與迭代、追趕所需的算力成本,也不應(yīng)該放在一起對(duì)比。OpenAI在ChatGPT o1的研發(fā)探索,與v3在前序產(chǎn)品基礎(chǔ)上的迭代,成本無(wú)法簡(jiǎn)單對(duì)比。創(chuàng)新和探索必然伴隨著算力和各項(xiàng)成本的浪費(fèi),在確定性的路徑上優(yōu)化所付出的代價(jià),與探索未知所付出的代價(jià),互相之間不宜簡(jiǎn)單對(duì)比。
而從大模型現(xiàn)階段的發(fā)展看,準(zhǔn)確地說(shuō),一家企業(yè)的階段性產(chǎn)品的成功,還不能定義為閉源與開源路線的成敗。
綜合以上,比較嚴(yán)謹(jǐn)?shù)乜创鼶eepSeek帶給我們的驚喜,應(yīng)該是:DeepSeek展示了模型架構(gòu)底層創(chuàng)新的價(jià)值,不斷提升了算力效率。并且,這一家架構(gòu)的底層創(chuàng)新,推動(dòng)了開源大模型產(chǎn)品在能力上的超越,從而將進(jìn)一步提升行業(yè)整體的應(yīng)用研發(fā)水平。
更重要的仍是“創(chuàng)新”本身
盡管比起人們熱愛的傳奇故事,上面的這個(gè)故事顯得有些過(guò)于審慎無(wú)聊。但事實(shí)上,這樣一個(gè)嚴(yán)謹(jǐn)?shù)墓适拢档梦覀內(nèi)ヌ接懕疚拈_篇的兩句話:為什么是一家資金量不占優(yōu)勢(shì)的、專注于底層創(chuàng)新而非商業(yè)化的開源企業(yè),創(chuàng)造了中國(guó)企業(yè)在大模型領(lǐng)域的一次“彎道超車”?
2024年8月,在接受媒體專訪時(shí),DeepSeek創(chuàng)始人梁文鋒提及了團(tuán)隊(duì)的研發(fā)思路,“如果目標(biāo)是做應(yīng)用,那沿用LLaMA模型(LLaMA,是元宇宙平臺(tái)公司,即Meta公開發(fā)布的產(chǎn)品)短平快上產(chǎn)品也是合理的,但我們的目的地是AGI(通用人工智能),這意味著我們需要研究新的模型結(jié)構(gòu),在有限資源下,實(shí)現(xiàn)更強(qiáng)的模型能力”。
這句話揭示了“奇跡”誕生的出發(fā)點(diǎn):因?yàn)槟繕?biāo)不同,所以方法不同,面對(duì)差距的態(tài)度也不同。
就在DeepSeek創(chuàng)造“行業(yè)奇跡”不久前,國(guó)內(nèi)大模型行業(yè)的共識(shí)幾乎仍然是“要做應(yīng)用”,因?yàn)樽鐾ㄓ么竽P偷臋C(jī)會(huì)已經(jīng)沒(méi)有了。一些明星創(chuàng)業(yè)企業(yè)更是放棄了對(duì)通用AGI的探索,轉(zhuǎn)而借助現(xiàn)有的模型去研發(fā)應(yīng)用。
在這種行業(yè)共識(shí)之下,我們所接觸到的多數(shù)國(guó)產(chǎn)大模型企業(yè),津津樂(lè)道的多數(shù)都是具體且仍不成熟的應(yīng)用。如,多如牛毛的陪伴型AI聊天機(jī)器人,或是文生圖、文生視頻等“奇觀展示”。
這并非刻意貶低應(yīng)用層的研發(fā)努力,面對(duì)差距做策略性的舍棄,是正常的科技與商業(yè)選擇。就連梁文鋒自己也在訪談中承認(rèn),在模型結(jié)構(gòu)和訓(xùn)練動(dòng)力學(xué)上,國(guó)內(nèi)的最高水平比起國(guó)外最高水平可能有一倍的差距,與此同時(shí),數(shù)據(jù)效率上國(guó)內(nèi)比起海外可能也有一倍的差距,兩者相加,相當(dāng)于國(guó)內(nèi)要用四倍的算力才能取得同樣的效果。
再加上復(fù)雜宏觀環(huán)境下算力本身的成本差距。在這種現(xiàn)實(shí)下,多數(shù)企業(yè)選擇了繞開這些差距,確實(shí)是一個(gè)直覺(jué)上可以理解的選項(xiàng)。
但DeepSeek選擇的方向卻顯得反直覺(jué)和常識(shí)。既然資源差距大,那就干脆回到模型架構(gòu)底層去創(chuàng)新和優(yōu)化。而事實(shí)證明,這條路最終反而能更快地達(dá)成目標(biāo)。
事實(shí)上,AGI的長(zhǎng)期發(fā)展固然與算力成本息息相關(guān),但AGI本身仍然處在不斷迭代的過(guò)程之中。在科技創(chuàng)新之中,決定長(zhǎng)期結(jié)果的固然是宏觀環(huán)境、經(jīng)濟(jì)投入等底層基礎(chǔ),但在動(dòng)態(tài)的創(chuàng)新發(fā)生過(guò)程中,更重要的或許仍舊是“創(chuàng)新”本身。
大模型已經(jīng)火熱許久,但時(shí)至今日,仍然不是簡(jiǎn)單的資源加總游戲,不是簡(jiǎn)單地囤更多算力就能快速實(shí)現(xiàn)突破,也不是誰(shuí)更早擁有更多用戶,有更多商業(yè)化的場(chǎng)景和賺錢的能力,就能笑到最后。而這正是那些曾經(jīng)風(fēng)光無(wú)二但卻迅速退潮的企業(yè)所沒(méi)有想明白的基礎(chǔ)邏輯。
從這個(gè)更嚴(yán)謹(jǐn)?shù)男袠I(yè)發(fā)展故事來(lái)看,DeepSeek的最大啟發(fā),是我們?nèi)耘f處在充滿不確定性的創(chuàng)新探索周期里。而短視,恰恰是創(chuàng)新的最大敵人。堅(jiān)持長(zhǎng)期視角,專注底層創(chuàng)新,探索新的路徑,比起融資、囤卡和商業(yè)化,更有可能獲得最終的勝利。
撰稿 / 王曉凱(媒體人)
編輯 / 遲道華 馬小龍
校對(duì) / 趙琳