12月21日，OpenAI連續(xù)12個(gè)工作日的直播發(fā)布活動(dòng)正式收官，與第一天發(fā)布正式版o1模型相對(duì)應(yīng)的是，最后一天OpenAI首席執(zhí)行官山姆·奧特曼推出了該公司的下一代大模型并將其命名為o3，o3在一系列測(cè)試中的表現(xiàn)超過(guò)了o1，并在一項(xiàng)關(guān)于通往AGI（通用人工智能）的測(cè)試中表現(xiàn)優(yōu)異。

不過(guò)，同今年年中發(fā)布o(jì)1預(yù)覽版時(shí)相同，山姆·奧特曼坦言o1仍然需要進(jìn)行安全測(cè)試，并沒(méi)有公開(kāi)具體的對(duì)外界開(kāi)放的日程表。取而代之的是o3-mini（即迷你版本）會(huì)在明年1月底發(fā)布。值得注意的是，o3-mini的訓(xùn)練者是北大計(jì)算機(jī)系畢業(yè)，后在斯坦福獲得博士學(xué)位的任泓宇。

總體來(lái)看，本次OpenAI持續(xù)約兩周的發(fā)布活動(dòng)算得上“量大管飽”，包括正式版本o1、Sora的“千呼萬(wàn)喚始出來(lái)”，也包括下一代模型o3的推出，中間還夾雜了一系列針對(duì)開(kāi)發(fā)者、具體產(chǎn)品以及算法技術(shù)上的更新升級(jí)。但發(fā)布內(nèi)容雖多，卻并未再現(xiàn)像上半年視頻模型Sora和多模態(tài)模型GPT-4o推出時(shí)那樣帶給業(yè)界的震撼，尤其是不少用戶在使用過(guò)正式發(fā)布的Sora后發(fā)現(xiàn)該產(chǎn)品仍然存在較多缺陷，并非明顯優(yōu)于國(guó)內(nèi)視頻模型。這或許說(shuō)明OpenAI雖然仍是AI大模型領(lǐng)域的佼佼者，但已并非望塵莫及。

o3大模型現(xiàn)身 Arc AGI測(cè)試題得分超過(guò)人類閾值

從左至右分別為Arc Prize基金會(huì)主席Greg Camerad、OpenAI研究主管Mark Chen、OpenAI首席執(zhí)行官山姆·奧特曼。

本次OpenAI的“收官”直播，山姆·奧特曼與OpenAI高級(jí)副總裁、研究主管Mark Chen擔(dān)任主持人，另外還有兩位解說(shuō)嘉賓分兩次上場(chǎng)。

在“上半場(chǎng)”，Mark首先介紹了o3大模型的能力：在一項(xiàng)由現(xiàn)實(shí)世界軟件任務(wù)組成的基準(zhǔn)測(cè)試中，o3得分71.7，超過(guò)了得分48.9的o1和得分41.3的o1 preview（預(yù)覽版）。而在一項(xiàng)名為Elo的競(jìng)爭(zhēng)性編程能力測(cè)評(píng)上，o3取得了2727分，o1評(píng)分1891，o1 preview評(píng)分1258，o3的性能已經(jīng)達(dá)到了o1 preview的兩倍多。而在數(shù)學(xué)基準(zhǔn)測(cè)試中o3的得分為96.7，也超過(guò)了前兩者的83.3分和56.7分，“這表示我們正在攀登實(shí)用性的前沿?！盡ark說(shuō)。

作為對(duì)比，Mark本人就是計(jì)算機(jī)專家，他還曾指導(dǎo)過(guò)類似的編程競(jìng)賽，但他本人在編程測(cè)評(píng)上的最好成績(jī)約為2500分，這一點(diǎn)上他被o3擊敗了。不過(guò)他在數(shù)學(xué)競(jìng)賽上的最高分是滿分，這一點(diǎn)上o3仍然無(wú)法達(dá)到人類頂尖水平?！斑@么說(shuō)，我就安全了?！鄙侥贰W特曼對(duì)此打趣道。

事實(shí)上，在OpenAI的最后一場(chǎng)直播之前，有很多網(wǎng)友猜測(cè)其是否能夠再次震撼業(yè)界，如推出一款通往AGI的跨時(shí)代產(chǎn)品。而第一位嘉賓——Arc Prize基金會(huì)主席Greg Camerad的出場(chǎng)證實(shí)了網(wǎng)友的猜測(cè)方向。

Arc Prize是一個(gè)非營(yíng)利性組織，其推出了“通用人工智能抽象和推理語(yǔ)料庫(kù)”（ARC-AGI）基準(zhǔn)，來(lái)衡量AI在獲取在未知任務(wù)上的效率，該組織為AGI所下的定義為：一個(gè)可以在其訓(xùn)練數(shù)據(jù)之外有效地獲得新技能的系統(tǒng)。

Greg Camerad表示，該組織的測(cè)試題旨在驗(yàn)證大模型在通往AGI方向上的水平，目前o3取得了該組織經(jīng)驗(yàn)證過(guò)的最高分：在低算力配置下，其準(zhǔn)確率達(dá)到75.7%，高算力下的表現(xiàn)提升至87.5%，而人類平均水平的閾值為85%，這意味著o3在該項(xiàng)測(cè)評(píng)中的表現(xiàn)已經(jīng)達(dá)到了人類水平，這是一個(gè)重要的里程碑，而在o3達(dá)到這一水平之前，該測(cè)試題已經(jīng)5年未被攻克。

不過(guò)，ARC Prize組織方面也表示，這并不代表已經(jīng)實(shí)現(xiàn)了AGI，因?yàn)閛3在某些簡(jiǎn)單任務(wù)上仍有失誤，該組織會(huì)繼續(xù)舉辦大獎(jiǎng)賽，直到出現(xiàn)一個(gè)取得85%成績(jī)的高效開(kāi)源解決方案。根據(jù)ARC Prize組織透露的數(shù)據(jù)，高算力下的o3模型執(zhí)行每個(gè)任務(wù)的消耗高達(dá)1000美元

o1-mini首先推出北大畢業(yè)生任泓宇擔(dān)綱訓(xùn)練任務(wù)

OpenAI研究員任泓宇（左）介紹o3-mini大模型。

雖然o3成為了OpenAI最先進(jìn)的大模型，不過(guò)山姆·奧特曼也坦言，o3不會(huì)馬上對(duì)外開(kāi)放，理由是該大模型仍然需要進(jìn)行安全測(cè)試。不過(guò)他表示將首先開(kāi)放外部安全測(cè)試申請(qǐng)，同時(shí)明年1月底將率先開(kāi)放o3-mini大模型。

在本次直播的“下半場(chǎng)”，山姆·奧特曼表示“o3-mini是我們真正感到興奮的大模型，而訓(xùn)練該大模型的任泓宇將加入我們。”貝殼財(cái)經(jīng)記者了解到，任泓宇本科畢業(yè)于北京大學(xué)計(jì)算機(jī)系，后在斯坦福獲得博士學(xué)位，早在o1-mini推出時(shí)，他就擔(dān)任了訓(xùn)練任務(wù)。

相比o3模型，o3-mini在性能與成本平衡方面表現(xiàn)更加出色，能夠以較低成本提供高效服務(wù)。根據(jù)任泓宇的演示，o3-mini在編程上展現(xiàn)出了出色的性能，隨著思考時(shí)間的增加，o3-mini模型的表現(xiàn)不斷提升，性能超越o1-mini。

任泓宇表示，在中位思考時(shí)間下，o3-mini勝過(guò)正式版o1模型，能夠以大約一個(gè)數(shù)量級(jí)的更低成本提供相當(dāng)甚至更好的代碼性能。此外，o3-mini的響應(yīng)時(shí)間大大縮短，達(dá)到了o1的一半。

在實(shí)用演示中，用戶在文本框中輸入編碼請(qǐng)求后，模型能夠迅速將請(qǐng)求發(fā)送至API，并自動(dòng)解決任務(wù)，生成代碼并保存至桌面，隨后自動(dòng)打開(kāi)終端執(zhí)行代碼。整個(gè)過(guò)程復(fù)雜且涉及大量代碼處理，但o3-mini模型在低成本模式下依然表現(xiàn)出了極快的處理效率。

最后，Mark介紹，OpenAI推出了一款被稱為審慎對(duì)齊的新技術(shù)，以找到具體的安全邊界，讓大模型知道什么時(shí)候該審查或拒絕用戶提出的需求，但又不會(huì)過(guò)度拒絕。

“現(xiàn)在你可以填寫(xiě)申請(qǐng)表，進(jìn)行對(duì)o3和o3-mini的外部安全測(cè)試，有越多人進(jìn)行安全測(cè)試，就能越快確保我們達(dá)到明年1月底發(fā)布o(jì)3-mini以及之后發(fā)布o(jì)3的目標(biāo)?！鄙侥贰W特曼在直播最后表示。

新京報(bào)貝殼財(cái)經(jīng)記者羅亦丹

編輯曲筱藝

校對(duì) 趙琳

27 +1

微博

微信