當(dāng)硅谷仍在為GPU萬卡集群豪擲千億資金時(shí),來自杭州的一群年輕人用557.6萬美元證明:AI大模型的比拼或許并不只靠規(guī)模,而是要看使用效率。只要技術(shù)實(shí)力足夠強(qiáng),一款上架不足半個(gè)月的App也能擊敗ChatGPT,在1月27日登頂蘋果應(yīng)用商店排行榜。


這幾天,AI圈最火的大語言模型,不是ChatGPT,不是文心一言,甚至不是國內(nèi)“AI六小虎”中的任意一個(gè),而是杭州AI公司深度求索所推出的DeepSeek。從去年12月26日發(fā)布的DeepSeek-V3,到1月20日發(fā)布的DeepSeek-R1,這家公司以O(shè)penAI三十分之一的API價(jià)格,實(shí)現(xiàn)了在多項(xiàng)測試中表現(xiàn)持平甚至超越OpenAI的o1模型(下稱o1模型)的成績,給美國AI行業(yè)人士帶來了中國大模型“花小錢辦大事”的沖擊。


新京報(bào)貝殼財(cái)經(jīng)記者對此進(jìn)行了實(shí)測,經(jīng)過同題問答發(fā)現(xiàn),DeepSeek-R1的“深度思考”模式以步步推理的方式生成了具有邏輯性的回答,用戶還能看到思考過程。


“這種驚喜和第一次用ChatGPT3.5差不多,甚至感覺更震撼。ChatGPT寫套路性很強(qiáng)的應(yīng)用文很好用,但一旦涉及高語境,調(diào)侃,諷刺,就有濃濃的AI味,沒有幽默感。DeepSeek對高語境內(nèi)容和中文網(wǎng)絡(luò)上的梗都能理解明白,內(nèi)容基本達(dá)到了脫口秀文本的水平?!?月27日,IT從業(yè)者劉鴻博告訴貝殼財(cái)經(jīng)記者。


低成本比肩OpenAI o1模型 硅谷“燒錢模式”遭質(zhì)疑


“你能想象一個(gè)籌集了10億美元的‘前沿’實(shí)驗(yàn)室,現(xiàn)在卻因?yàn)楸炔贿^DeepSeek而無法發(fā)布最新的模型嗎?”DeepSeek-R1面世后的第二天,知名文生圖大模型Stable Diffusion創(chuàng)始人Emad就對硅谷同行們發(fā)出了這樣的“靈魂拷問”。


過去幾天,面對“橫空出世”的DeepSeek,不止一名美國AI從業(yè)者開始在社交平臺抒發(fā)自己內(nèi)心深處受到的震撼。OpenAI等美國大模型公司一直通過性能領(lǐng)先筑起自己的“護(hù)城河”,以此抵御低價(jià)競爭者,但面對一款成本僅為“零頭”但性能同樣優(yōu)秀的大模型,許多人發(fā)現(xiàn)這一敘事已經(jīng)無法阻止用戶“用腳投票”。


北京時(shí)間1月27日,DeepSeek在蘋果App Store美國區(qū)免費(fèi)應(yīng)用下載榜上超越ChatGPT,排名第一,在中國區(qū)排行榜上同樣登頂。此外,DeepSeek在App Store英國區(qū)免費(fèi)應(yīng)用下載榜的排名升至第二,僅次于ChatGPT,而該App在1月15日才剛剛發(fā)布。DeepSeek的出圈如同“TikTok難民”涌入小紅書一樣,先由國外用戶發(fā)起。不少用戶在社交平臺曬出了自己使用DeepSeek的心得,認(rèn)為這個(gè)應(yīng)用“非??帷?。


根據(jù)DeepSeek官方公布的性能測試,該大模型在數(shù)學(xué)測試、編程等多個(gè)領(lǐng)域與o1模型表現(xiàn)“旗鼓相當(dāng)”,其中MATH-500(評估大模型數(shù)學(xué)能力)、SWE-bench Verified(評估大模型的軟件工程能力)、美國數(shù)學(xué)邀請賽的測試分?jǐn)?shù)還超過了o1模型。新京報(bào)貝殼財(cái)經(jīng)記者測試發(fā)現(xiàn),對于普通的問答問題,DeepSeek的表現(xiàn)同樣可圈可點(diǎn),尤其是自帶的“深度思考”模式可以讓用戶清晰了解到其思考過程。


DeepSeek-R1模型技術(shù)報(bào)告 來源:DeepSeek官網(wǎng)


除此之外,DeepSeek的訓(xùn)練成本還更低,根據(jù)其公布的技術(shù)文檔,DeepSeek-V3模型的訓(xùn)練成本為557.6萬美元,訓(xùn)練使用的是算力受到限制的英偉達(dá)H800 GPU集群。相比之下,同樣是開源模型的Meta旗下Llama3.1 405B模型的訓(xùn)練成本超過6000萬美元,而OpenAI的GPT-4o模型的訓(xùn)練成本為1億美元,且使用的是性能更加優(yōu)異的英偉達(dá)H100 GPU集群。


DeepSeek技術(shù)文檔截圖 來源:DeepSeek官網(wǎng)


雖然DeepSeek-R1模型的訓(xùn)練成本并未公開,但從其API價(jià)格上也可以感受到“便宜”二字,它的定價(jià)甚至連OpenAI定價(jià)的零頭都不到。DeepSeek-R1的API服務(wù)定價(jià)為每百萬輸入tokens1元(緩存命中)/ 4元(緩存未命中),每百萬輸出tokens16元,而o1模型上述三項(xiàng)服務(wù)的定價(jià)分別為55元、110元、438元。


事實(shí)上,價(jià)格便宜早在這次“出圈”前就是DeepSeek的標(biāo)簽。去年年中,國內(nèi)AI大模型大打“價(jià)格戰(zhàn)”時(shí),第一個(gè)“挑起戰(zhàn)火”的正是DeepSeek發(fā)布的第二代MoE大模型,但由于彼時(shí)DeepSeek并不屬于“AI六小虎”之一,其降價(jià)聲勢很快被緊跟其后宣布降價(jià)的阿里云、百度、科大訊飛等大廠蓋過。


現(xiàn)在,“小透明”不再低調(diào),因?yàn)槌藘r(jià)格優(yōu)勢外,其還有足以比肩o1的性能。1月27日,社交平臺認(rèn)證為“AI投資機(jī)構(gòu)Menlo Ventures負(fù)責(zé)人”的Deedy對比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更長、推理性能更佳。


這可能帶來更加深遠(yuǎn)的影響,一位Meta工程師稱其內(nèi)部因DeepSeek進(jìn)入“恐慌模式”,Scale AI創(chuàng)始人Alexander Wang評價(jià)DeepSeek是“中國科技界帶給美國的苦澀教訓(xùn)”,證明“低成本、高效率”的研發(fā)模式可能顛覆硅谷巨頭的高投入路徑。社交平臺認(rèn)證為“風(fēng)險(xiǎn)投資人”的ShortBear評論稱,“DeepSeek的興起對那些商業(yè)模式為銷售大量GPU(英偉達(dá))或購買大量GPU(OpenAI、微軟、谷歌)的公司都形成了挑戰(zhàn)?!?/p>


截至北京時(shí)間1月27日下午2:54分,英偉達(dá)夜盤大跌7.17%。而前一個(gè)交易日(上周五1月24日)收盤下跌3.12%,報(bào)收142.62美元/股,市值蒸發(fā)超千億美元。



實(shí)測用DeepSeek搜信息、寫段子 用戶可看到大模型思考過程


那么,在C端的實(shí)際應(yīng)用上,DeepSeek是否真的那么神奇?1月26日至27日,新京報(bào)貝殼財(cái)經(jīng)記者進(jìn)行了實(shí)測。


在聯(lián)網(wǎng)搜索功能方面,記者向DeepSeek的APP應(yīng)用輸入提示詞“幫我整理本周內(nèi)AI行業(yè)發(fā)生的大事,并列出一個(gè)事件表”,DeepSeek很快搜索到了48個(gè)網(wǎng)頁并開始通過深度思考模式“自言自語”,包括“本周應(yīng)該是2025年1月20日到26日”、“網(wǎng)頁9是2024年,應(yīng)該排除”、“需要整合這些信息,排除重復(fù)”、“星門計(jì)劃在網(wǎng)頁5和6都有提及,日期是1月24日?需要確認(rèn)”等。


最終,DeepSeek輸出了一個(gè)從1月20日至26日的事件表。記者對比發(fā)現(xiàn),雖然生成的內(nèi)容依然會受到抓取網(wǎng)頁內(nèi)容錯(cuò)誤的影響,但在思考過程中,DeepSeek通過對照沖突的網(wǎng)頁內(nèi)容排除掉了一些“錯(cuò)誤答案”,且思考過程清晰可見,包括哪兩個(gè)事件的時(shí)間需要確定,哪個(gè)事件需要仔細(xì)核對等。相比之下,另外一些大模型甚至將2024年的結(jié)果列入了回答之中。


貝殼財(cái)經(jīng)記者向DeepSeek提問時(shí),DeepSeek的思考過程。 來源:DeepSeek App截圖


日常使用AI進(jìn)行工作,還擁有自己形象數(shù)字人的愷一告訴貝殼財(cái)經(jīng)記者,她在與DeepSeek的對話中發(fā)現(xiàn),該大模型工具對生辰八字、奇門遁甲等中國古代文化“樣樣在行”,更關(guān)鍵的是它展現(xiàn)了思考問題的過程,從該過程來看可以感受到“非常專業(yè)”。


事實(shí)上,DeepSeek在回答生成過程中展現(xiàn)出的思考過程給不少用戶帶來了震撼,認(rèn)為該思考過程甚至比答案還有價(jià)值。


貝殼財(cái)經(jīng)記者直接咨詢DeepSeek“為什么你的性能如此優(yōu)秀,給我一個(gè)理由”時(shí),DeepSeek的思考過程可謂“滴水不漏”,它首先拆分了問題,將“性能優(yōu)秀”拆分為響應(yīng)速度、處理復(fù)雜問題能力、多語言支持等多方面,還頗有情商地考慮到了“用戶可能希望了解技術(shù)細(xì)節(jié),但又不想過于專業(yè)化的解釋,要考慮用戶背景是不是技術(shù)人員”“在回答結(jié)構(gòu)上要首先感謝用戶的認(rèn)可”,另外它還考慮到了“要遵守隱私和安全規(guī)范,不泄露內(nèi)部技術(shù)細(xì)節(jié)”。


貝殼財(cái)經(jīng)記者向DeepSeek提問時(shí),DeepSeek的思考過程。 來源:DeepSeek App截圖


多名采訪對象告訴貝殼財(cái)經(jīng)記者,DeepSeek對一些問題的回復(fù)質(zhì)量超過了o1模型,記者通過測試發(fā)現(xiàn),DeepSeek確實(shí)熟悉中外互聯(lián)網(wǎng)上的各種“?!薄?/p>


愷一表示,當(dāng)前市面上有不少結(jié)合付費(fèi)場景的App,其內(nèi)在原理就是把AI大模型嵌入軟件中,再進(jìn)行微調(diào)。DeepSeek出現(xiàn)后,由于其開源性質(zhì),這些產(chǎn)品的發(fā)展空間應(yīng)該會更大。


大模型自發(fā)“頓悟” DeepSeek創(chuàng)新AI訓(xùn)練模式


為什么DeepSeek能夠以較低的價(jià)格訓(xùn)練出性能比肩o1的大模型?根據(jù)其公布的技術(shù)文檔,DeepSeek-R1-Zero通過單純的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練實(shí)現(xiàn)推理能力,無需監(jiān)督微調(diào)(SFT),打破了傳統(tǒng)依賴預(yù)設(shè)思維鏈的范式。


據(jù)了解,以往模型需要花費(fèi)大量精力在監(jiān)督微調(diào)上,即使用大量已標(biāo)注數(shù)據(jù)對AI模型進(jìn)行進(jìn)一步訓(xùn)練,這些數(shù)據(jù)包含了問題、對應(yīng)“標(biāo)準(zhǔn)答案”、思考步驟范例,大模型正是靠著這些模仿人類思維的方式,才得以提升推理能力。


這一路徑讓AI大模型越來越聰明的同時(shí),也帶來了另一個(gè)問題:如果大模型足夠“聰明”,可能產(chǎn)生獎(jiǎng)勵(lì)欺騙問題,即利用獎(jiǎng)勵(lì)函數(shù)中的漏洞和模糊性來獲取高獎(jiǎng)勵(lì),好像一個(gè)作弊技術(shù)越來越高超的考生,卻未能真正完成預(yù)期任務(wù)。


而DeepSeek摒棄了監(jiān)督微調(diào),單純依靠準(zhǔn)確性獎(jiǎng)勵(lì)訓(xùn)練模型,且獎(jiǎng)勵(lì)規(guī)則極其簡單。直接讓模型生成答案,然后打分,再根據(jù)高分邏輯更新模型。由于省去了監(jiān)督微調(diào)中復(fù)雜的獎(jiǎng)懲模式,計(jì)算資源的需求得以大幅減少。


事實(shí)證明,這一條路真的讓模型學(xué)會了思考乃至“頓悟”。


DeepSeek在技術(shù)文檔中透露,在DeepSeek-R1-Zero的訓(xùn)練過程中,觀察到了一個(gè)特別引人注目的現(xiàn)象——“頓悟時(shí)刻”。這一現(xiàn)象發(fā)生在模型的某個(gè)中間版本中,在這一階段,DeepSeek-R1-Zero學(xué)會了通過重新評估其初步方法來為問題分配更多的思考時(shí)間。這種行為不僅證明了模型推理能力的增強(qiáng),而且也是強(qiáng)化學(xué)習(xí)能夠帶來意外收獲的最好例子。


具體來看,在處理一個(gè)復(fù)雜的數(shù)學(xué)問題時(shí),模型突然停下來說"Wait, wait. Wait. That's an aha moment I can flag here"(等等、等等、等等,這是個(gè)值得我記錄的‘啊哈’時(shí)刻),隨后重新審視了整個(gè)解題過程。


DeepSeek技術(shù)文檔截圖,圖中紅字為大模型自發(fā)的感慨:“等等、等等、等等,這是一個(gè)值得我記錄的時(shí)刻”。來源:DeepSeek官網(wǎng)


DeepSeek在技術(shù)文檔中表示,這一刻不僅對模型來說是“頓悟時(shí)刻”,對觀察其行為的研究人員來說也是如此。它強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)的力量和魅力:我們不必明確教導(dǎo)模型如何解決問題,只需為其提供正確的激勵(lì),它就會自主地開發(fā)出高級的問題解決策略?!邦D悟時(shí)刻”有力地提醒了我們,強(qiáng)化學(xué)習(xí)具有解鎖人工智能系統(tǒng)中新層次智能的潛力,為未來更自主和自適應(yīng)的模型鋪平道路。


不少硅谷研究人員認(rèn)為,這一“頓悟”時(shí)刻對AI發(fā)展意義重大,如社交平臺認(rèn)證為“GEAR Lab聯(lián)合創(chuàng)始人、OpenAI第一名實(shí)習(xí)生”的Jim Fan表示,DeepSeek-R1避免使用任何容易破解的學(xué)習(xí)獎(jiǎng)勵(lì)模型。這使得模型產(chǎn)生了自我反思與探索行為的涌現(xiàn)。


此外,DeepSeek還是一款開源大模型,DeepSeek方面表示,“為了進(jìn)一步促進(jìn)技術(shù)的開源和共享,我們決定允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。”這意味著所有人都可以通過下載和微調(diào)該大模型從中獲益。國外的開發(fā)者論壇上甚至有人發(fā)起了“將DeepSeek模型裝進(jìn)個(gè)人電腦”的挑戰(zhàn)。


值得注意的是,DeepSeek團(tuán)隊(duì)由清華大學(xué)、北京大學(xué)應(yīng)屆生和實(shí)習(xí)生主導(dǎo),平均年齡不足26歲。一些關(guān)于模型的技術(shù)革新如MLA(多頭潛在注意力)架構(gòu)的靈感源自一名博士生的“突發(fā)奇想”,而GRPO強(qiáng)化學(xué)習(xí)算法的突破則由3名實(shí)習(xí)生完成。創(chuàng)始人梁文鋒在2023年5月剛剛宣布進(jìn)場大模型領(lǐng)域時(shí)曾在接受媒體采訪稱,“招聘看能力,而不是看經(jīng)驗(yàn)。我們的核心技術(shù)崗位,基本以應(yīng)屆和畢業(yè)一兩年的人為主。”“不做前置崗位分工,而是自然分工,每個(gè)人可以隨時(shí)調(diào)用訓(xùn)練集群,只要幾個(gè)人都有興趣就可以開始一個(gè)項(xiàng)目?!边@種“自下而上”的創(chuàng)新文化,與OpenAI早期如出一轍。


“我們正處在一個(gè)時(shí)間線上,一家非美國公司正在延續(xù)OpenAI的原始使命——真正開放、前沿的研究,賦能所有人。”Jim Fan表示。


面壁智能首席科學(xué)家劉知遠(yuǎn)在朋友圈發(fā)文稱,“DeepSeek最近出圈,特別好地證明了我們的競爭優(yōu)勢所在,就是通過有限資源的極致高效利用,實(shí)現(xiàn)以少勝多。2024年很多人來問我,中國跟美國的AI差距是擴(kuò)大了還是縮小了,我說明顯縮小了,但能感受到大部分人還不太信服,現(xiàn)在DeepSeek等用實(shí)例讓大家看到了這點(diǎn),非常贊?!?/p>


“AGI新技術(shù)還在加速演進(jìn),未來發(fā)展路徑還不明確。我們?nèi)栽谧汾s的階段,已經(jīng)不是望塵莫及,但也只能說尚可望其項(xiàng)背,在別人已經(jīng)探索出的路上跟隨快跑還是相對容易的。接下來我們要獨(dú)立面對一團(tuán)未來迷霧,如何先人一步探出新路,是更加困難和挑戰(zhàn)的事,需要我們更加百倍投入、百倍努力?!眲⒅h(yuǎn)說。


記者聯(lián)系郵箱:luoyidan@xjbnews.com


新京報(bào)貝殼財(cái)經(jīng)記者 羅亦丹 編輯 王進(jìn)雨 校對 柳寶慶