OpenAI的12天：更接近AGI的o3模型為發布會劃上句號

陳奇杰2024-12-21 18:07

經濟觀察網陳奇杰/文 12月21日，OpenAI的“馬拉松”發布會來到最后一天，OpenAI推出了o1模型的下一代模型o3。

OpenAI的o系列模型更聚焦推理能力，和GPT系列模型并列，是其另一條重要的產品線。其中，o3迷你型（mini）模型預計將于2025年1月上線，o3模型將在后續推出。OpenAI首席執行官山姆·奧特曼表示，跳過o2命名是為了避免和英國電信運營商O2沖突。

自12月6日起，OpenAI開啟了一場為期12天的直播發布會，每個工作日都會推出新的產品或功能。不過，每場直播的時間都僅有10分鐘至25分鐘。

o3模型的AGI評測突破人類水平門檻

今年9月，OpenAI發布了更擅長處理復雜推理任務的o1系列模型，其核心技術是“思維鏈”，它要求模型在回答復雜問題前，先生成一個內部的思考過程，類似于人類在處理復雜問題時一步步推理的過程。通過這種方式，o1模型能夠將復雜問題分解成更簡單的部分，并且識別并糾正錯誤。相比o1模型，o3模型的能力進步明顯。

在為通用人工智能（AGI）準備的測試ARC-AGI中，o3模型在“低思考模式”和“高思考模式”兩種設置里，分別獲得了75.7和87.5的分數。ARC-AGI是一個由一系列任務構成的測試數據集，旨在測試參與者的推理能力和抽象思維。OpenAI的演示人員在直播中稱，o3模型的這一項分數是一個重要的里程碑，因為人類在這項測試中達到的分數閾值為85，這說明o3模型的水平更接近AGI。

在OpenAI的直播演示中，o3模型在編程競賽平臺Codeforces上得分為2727，遠高于o1模型的1891。OpenAI研究高級副總裁MarkChen在直播中表示，他本人的得分也只有2500，這意味著o3模型的編程能力已經能和專業程序員比肩。

在數學領域，o3模型在美國數學邀請賽（AIME 2024）測試中的準確率達到了96.7%，而o1模型的準確率是83.3%。

OpenAI在直播中還發布了o3模型的mini版本，mini版本的模型尺寸更小，使用成本會有所降低。o3 mini設置了低、中、高三種推理模式，用戶能根據任務復雜度靈活調整模型的思考時間。

OpenAI預計o3 mini將于1月向所有用戶推出，而完整版o3模型則將在后續發布。此外，OpenAI為安全研究人員開放了早期訪問權限的申請，以此表示對AI安全性的重視。奧特曼也在社交媒體上呼吁，希望安全研究人員考慮申請幫助測試o3 mini和o3。

OpenAI的12天

在這12天的直播發布會里，OpenAI分別在首日和最后一天發布了o1系列模型的正式版以及o3模型的預覽版，這說明OpenAI仍然更加重視模型能力升級。

除了首日和最后一天，第3天的發布也備受關注。當天OpenAI正式推出了AI視頻生成模型Sora。此前，Sora已經預告了近300天時間。在此期間，國內外已有字節跳動、快手、生數科技和谷歌等超過20家公司推出了類似的文生視頻模型及應用。

在直播活動的第5天和第11天，OpenAI主要展示了他們和蘋果公司的合作，尤其是終端側的AI應用。奧特曼表示，蘋果正在將ChatGPT整合到手機（iPhone）、平板電腦（iPad）和蘋果系統（iPad）上。

整合的內容包括：蘋果的智能語音助手Siri能將復雜任務移交給ChatGPT處理；蘋果用戶可以使用ChatGPT撰寫文檔，還能進行文檔細化和總結；iPhone 16手機的相機控制功能也進行更新，通過視覺智能讓用戶更深入地了解拍攝對象，例如利用搜索功能快速識別眼前物品，或借助ChatGPT深入了解識別的內容；ChatGPT已與蘋果筆記本電腦實現了應用整合，支持與Warp（文件共享應用）、Xcode（編輯器）等應用聯動，并可在語音模式下與蘋果備忘錄等應用協同工作。

余下幾天的直播發布會，OpenAI主要發布與聊天機器人ChatGPT相關的新功能。

第2天，Open AI發布了面向企業用戶的“強化微調”技術，用戶使用極少的訓練數據就能在特定領域創建專家模型，預計該功能將在明年正式上線。

第4天，OpenAI為ChatGPT推出了全新的并行設計界面Canvas。Canvas能讓代碼和文本處理更加高效，并提供了多種實用的寫作工具。

第6天，OpenAI上線了和人類對話更加自然的高級語音模式和實時通話、理解屏幕等功能。在演示中，ChatGPT可以通過攝像頭記住4位直播人員的名字，并能在被打斷談話后再自然地接話。

在第7天和第8天，OpenAI分別推出了Projects In ChatGPT功能以及ChatGPT搜索功能。前者能將ChatGPT的各種功能整合至一處，便于用戶創建并管理各類項目文件夾，后者則是強化了聯網檢索能力。

第10天，OpenAI拓展了吸引新用戶的渠道，推出了“熱線”的互動方式，它允許新用戶通過電話和通訊程序WhatsApp與ChatGPT互動。

此外，OpenAI在第9天的發布會上，集中宣布了定價及價格調整的相關策略。當天，OpenAI開放了o1模型的應用程序編程接口（API），并宣布了一系列定價：o1模型每分析約75萬字收費15美元，每生成約75萬字收費60美元，這一費用是其最新非推理模型GPT-4o的3—4倍。

OpenAI也宣布了將GPT-4o音頻模型的API定價降低60%，降價后的價格為每100萬輸入Tokens（大模型數據的基本單元）收費40美元，每100萬輸出Tokens收費80美元。OpenAI即將正式上線的GPT-4o mini模型API定價更便宜，每100萬輸入和輸出Tokens的價格分別為10美元和20美元。同時，GPT-4o mini的文本token費率也大幅下調，輸入token的起步價為0.6美元，輸出token起步價為2.4美元。

除了通過API推進商業化，OpenAI還在直播活動中推出了ChatGPT Pro這項月費200美元的新訂閱服務。ChatGPT Pro主要針對需要高級AI能力的專業人士，允許他們無限制地使用包括o1在內的高級模型。

例如，所有ChatGPT付費用戶均可通過ChatGPT選擇切換至o1模型，而o1 pro版本則需要ChatGPT Pro用戶才能直接訪問。此外，現階段Sora僅面向ChatGPT Plus和Pro兩類會員用戶開放，Plus用戶每月享有50條視頻生成配額，Pro用戶則高達5000條。