OpenAI在2025年底「安靜」推出最新AI模型ChatGPT-5.2。先看看這一次ChatGPT-5.2模型有哪幾些更新?
從聊天高手變數位員工
ChatGPT-5.2主打「一位可以隨時打卡上班的數位員工」,OpenAI在官方聲明中形容ChatGPT-5.2是「工作成果可直接使用的AI模型」。
官方聲明點出,GPT-5.2重點在於實現「具經濟價值」的任務,在GDPval 基準測試中,GPT‑5.2 Thinking 創下業界新標準,成為首個達到人類專家水準、甚至更勝一籌的模型。
GDPval是OpenAI推出的自研指標,專門評測AI模型在橫跨44種不同職業中的表現,包含製作簡報、試算表及其他檔案。
而GPT-5.2的Thinking模式在GDPval評測任務中,產出工作成果的速度,超出專業人士11倍,有70.9%的整體表現贏過或追平頂尖專業人士,需要的人力成本不到1%。GPT-5.1只有38.8%,這是OpenAI第一個達到或超越人類專家水準的模型。
事實錯誤大幅減少
這次的模型也針對ChatGPT過去回答常犯錯的情形做出調整。OpenAI表示,GPT-5.2 Thinking的錯誤率比GPT-5.1減少38%,AI模型出現「幻覺」(亂編答案)的情況明顯改善。
處理長文件能力再進化
GPT-5.2還進一步提升了長篇內容的上下文推論能力,據稱可以準確理解、分析數十萬字元的文件(例如研究報告、合約、論文、法律文件等),GPT‑5.2的Thinking模式在上下文長度達到最大值25.6萬個token的資訊檢索中,準確率達到近乎100%。
寫程式更厲害
在程式碼生成和除錯(Debugging)上,GPT-5.2也出現大幅改進,在用來評估AI代理在真實軟體工程任務中能力的基準測試SWE-Bench Pro中,GPT-5.2的Thinking模式皆達到業界最先進水準。
前端的軟體工程開發能力也比GPT-5.1版本更優,官方還示範如何用簡易指令,讓GPT- 5.2做出一段海浪模擬網頁,顯示出逼真的海浪3D動畫,還能調整浪高、風速和光照參數。
3種模式應對不同情境
這次推出的GPT-5.2有三種模式,針對不同使用情境所設計:
- Instant模式:專為日常任務打造,像是資訊搜尋、寫作、翻譯等,速度優先。
- Thinking模式:擅長複雜的結構化工作,包括編寫程式碼、分析冗長文件、進行複雜數學運算和規劃。這個模式在推理能力上有顯著提升,錯誤率較前一代減少38%。
- Pro模式:是最高階版本,針對需要極致準確性和可靠度的難題而生。例如製作財務分析圖表。
OpenAI首席產品官Fidji Simo表示:「我們設計5.2就是要為用戶創造更多經濟價值。」講白點,GPT-5.2更多的是針對企業,而非個人。
發布紅色警戒,OpenAI孤注一擲
今年以來,OpenAI曾先後推出GPT‑5、GPT‑5.1,理論上是循序漸進的迭代更新;然而在Google推出Gemini 3、Anthropic持續強化Claude系列之後,本來大家最愛用的都是ChatGPT,卻突然被外媒爆出退訂潮,還有數據顯示許多人改用了Google的Gemini。
OpenAI甚至在公司內部發出「紅色警戒」!
如今,OpenAI要求優先把資源投入「模型改進與性能提升」,整間公司從「忙著想怎麼變魔術」轉向「把產品做到最強」的基本功。
TechCrunch報導,OpenAI的推理支出(訓練完的AI模型運作所需的運算費用)大部分是以現金支付,而非雲端積分,顯示公司的運算成本已經超出合作夥伴和積分能補貼的範圍。
值得注意的是,這次發布完全沒有提到新的圖像生成器。據報導,執行長奧特曼(Sam Altman)在紅色警戒備忘錄中表示,圖像生成將是未來重點,特別是在Google的Nano Banana(Gemini 2.5 Flash Image的暱稱)在八月發布、引發一波病毒式傳播之後。
曾是AI話題寵兒的OpenAI,如今處境卻變得有點尷尬。Tom's Guide分析師指出,GPT-5.2不是什麼革命性的「大改款產品」,只是把原本的東西做得更好。
就在幾個月前,與OpenAI相關的任何公司,還在享受巨大的漲勢。
在OpenAI勢力範圍內的公司——包括甲骨文、CoreWeave、超微以及微軟、輝達,和持有該公司11%股份的軟銀。現在,這些關聯看起來更像是拖累。曾經看起來雄心勃勃的各種股權認購、資料中心未來訂單、融資,在競爭對手如Google和Anthropic用各種數據打臉後,市場開始擔心OpenAI是否「貪多嚼不爛」。晨星科技股票資深策略師Brian Colello表示,「其營收成長的時機不確定,而競爭對手所做的每一項改進都增加了它無法實現願景的風險。」
隨著創新和技術優勢不再是OpenAI的優勢,現在就看奧特曼能否在短時間內證明他的公司仍然值得獲得如此空前的投資。
資料來源:OpenAI、TechCrunch、tom’s guide、Engadget、Bloomberg
核稿編輯:林易萱