近日,在為期12個(gè)工作日的線上新品發(fā)布活動(dòng)最后一日,OpenAI宣布了“壓軸大作”:o1的下一代模型o3,而且一開始就要推出兩個(gè)版本,一個(gè)正式的o3,還有一個(gè)相對(duì)較小的精簡(jiǎn)版o3-mini。o3在OpenAI實(shí)現(xiàn)通用人工智能(AGI)這一奮斗目標(biāo)上取得了突破,最高的測(cè)試成績(jī)達(dá)到了類人水平。經(jīng)過2024年AIME數(shù)學(xué)競(jìng)賽的題目測(cè)試,o3的準(zhǔn)確度得分為96.7、即準(zhǔn)確率96.7%,大幅度超過了o1預(yù)覽版的56.7和o1的83.3%,僅錯(cuò)了一道題,相當(dāng)于一名頂級(jí)數(shù)學(xué)家的水平。
【機(jī)會(huì)前瞻】
近日,OpenAI在為期12個(gè)工作日的線上新品發(fā)布活動(dòng)最后一日,發(fā)布了其壓軸大作o3和o3-mini在內(nèi)的o3模型系列,這是AI領(lǐng)域又一重要里程碑。
OpenAI的o3模型在多個(gè)基準(zhǔn)測(cè)試中超越了前代o1模型。在推理能力方面,o3模型在ARC-AGI基準(zhǔn)測(cè)試中取得了突破性成績(jī),最高得分達(dá)到87.5%,遠(yuǎn)超o1模型的25%,甚至超過了人類平均水平的85%。這表明o3在處理復(fù)雜問題時(shí),能夠像人類一樣進(jìn)行邏輯推理和抽象思考,具備更強(qiáng)的解決問題能力。
編碼能力方面,在編碼測(cè)試SWE-Bench Verified中,o3性能比o1高出22.8%,在CodeForces中o3評(píng)分高達(dá)2727,超越了大部分人類程序員。它不僅能生成準(zhǔn)確的代碼,還能提供有見地的解釋,幫助開發(fā)人員更好地理解和完善項(xiàng)目,極大地提高了軟件開發(fā)的效率和質(zhì)量。
在2024年AIME 數(shù)學(xué)競(jìng)賽題目測(cè)試中,o3的準(zhǔn)確度得分為96.7%,而o1為83.3%。在Epoch AI Frontier Math測(cè)試中,o3解決了25.2%的問題,而其他模型的得分均未超過2%,展現(xiàn)了其在數(shù)學(xué)推理和處理高度復(fù)雜抽象問題方面的巨大潛力。
其中o3-mini作為更經(jīng)濟(jì)高效的版本,預(yù)計(jì)將于明年1月底發(fā)布,其在成本和延遲方面比o1-mini更低,有望進(jìn)一步推動(dòng)人工智能技術(shù)的普及和應(yīng)用。
可以看出,OpenAI此次發(fā)布的o3模型系列,擁有強(qiáng)大性能和復(fù)雜任務(wù)處理能力,作為行業(yè)標(biāo)桿,o3模型的發(fā)布將進(jìn)一步激發(fā)國(guó)內(nèi)對(duì)AI算力的需求,推動(dòng)國(guó)內(nèi)算力市場(chǎng)規(guī)模的持續(xù)擴(kuò)大。