不會打游戲的大模型不是好AI？甲骨文最強模型用《寶可夢》當“期末考”

馬蘭2025-02-26 09:37

甲骨文周一發布了其最強模型Claude 3.7 Sonnet，據甲骨文稱，該模型同時具備推理能力和傳統實時生成文本的能力，是市面上唯一的混合模型。

Claude 3.7 Sonnet的一個獨特功能是其能夠進行拓展思考，與OpenAI的o3-mini和Deepseek R1一樣，它可以在增加計算和時間成本的基礎上來推理更具挑戰性的問題。

而測試Claude 3.7 Sonnet推理能力的一項重要測試就是打游戲。

據甲骨文周一的博客文章顯示，該公司在《精靈寶可夢（紅）》測試了Claude 3.7 Sonnet，為模型配備了基本內存、屏幕像素輸入和功能調用，以便模型可以連續闖關并不受模型的上下文限制。

好消息是，3.7版本的模型與3.0版本相比“大有出息”。上一個版本3.0連離開游戲新手村都做不到，而3.7已經成功走到寶可夢道館Boss身前，并擊敗道館領袖贏得了徽章。

不過，甲骨文并未公布3.7花費了多少計算能力才做到這一步，以及每闖完一關所耗費的時間。甲骨文只透露，3.7 Sonnet執行了35000次操作才打到最后一位道館館主Surge處。

利用游戲作為人工智能模型的基準測試實際上在業內也并不罕見，加州理工大學和英偉達的一支團隊此前就推出過Voyager組件，與GPT-4交互來攻略另一款熱門游戲《我的世界》。

Voyager據介紹包括三個關鍵模塊：最大化探索的自動課程；用于存儲和檢索復雜行為的技能庫與生成可執行代碼的新迭代提示機制。據研究團隊介紹，Voyager表現出強大的情境學習能力，獲得的獨特物品、行近距離以及解鎖成就的速度都優于基準人工智能模型。

上周，微軟也官宣加入了AI打游戲的潮流之中。微軟推出了一款模型Muse可以生成游戲視覺效果和控制器輸入，稱其可以支持人們在設計游戲時的創造力，并已經在多人競技戰斗游戲《Bleeding Edge》中進行訓練。

Gaming AI公司副總裁Fatima Kardar表示，Muse的突破之處在于它對3D游戲的詳細了解，包括游戲物理以及游戲如何對玩家的控制操作做出反應。這意味著該模型能夠創建一致且多樣化的游戲玩法，進一步幫助到游戲創作者。

轉載來源：財聯社作者：馬蘭

版權與免責：以上作品（包括文、圖、音視頻）版權歸發布者【經觀新科技】所有。本App為發布者提供信息發布平臺服務，不代表經觀的觀點和構成投資等建議

熱新聞

總編對話｜從中國走向世界——對話松下電器中國東北亞公司總裁CEO木下步

聚焦主業提升品牌：恒安集團接班人的長期主義理想

希捷科技全球執行副總裁暨首席商務官鄭萬成：未來五年，中國將成為全球生成數據最多的市場