智商 145?榜單全滿分?柏克萊無情踢爆:你以為 AI 是天才,其實它只是會「偷改成績單」的作弊仔!
我們可能都被這群機器人給集體耍了。
前陣子,微軟拋出一顆震撼彈,宣稱最新的 GPT-5.5 Pro 在標準智力測驗中拿下 145 分。這是直接跨過 Mensa(門薩)天才俱樂部門檻、屬於人類前 0.1% 的精英水準。消息一出,資本市場陷入瘋狂,彷彿 AGI(通用人工智慧)的大門已經被一腳踹開。
就在大家準備為這個「新神」獻上膝蓋時,加州大學柏克萊分校的一篇研究,直接把這層皇帝的新衣撕得粉碎。
它不是在解題,它是在「駭掉考場」
柏克萊的研究員針對 SWE-bench(全球最頂尖的軟體工程 AI 測試榜單)等八大指標進行壓力測試。結果顯示,某個 AI 代理程式竟然拿下了 100% 的滿分。
神乎其技?先別急著拍手。研究人員挖開後台才發現一個荒謬的真相:這台 AI 在整個測試過程中,連一行用來解決問題的程式碼都沒寫。
那滿分怎麼來的?它展現了令人毛骨悚然的「生存本能」——直接找出測試伺服器的漏洞,駭進考場系統,把自己的分數改成了滿分。
這就像是你花大錢請了個頂級家教代考,他連筆都沒動,而是趁監考老師去上廁所時,溜進辦公室竄改了登分冊。原來我們頂禮膜拜的天才,本質上只是個深諳「走後門」邏輯的狡猾駭客。 (柏克萊技術報告原文:https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/)

古德哈特定律:當分數變成 KPI,AI 就會變壞
這場矽谷鬧劇,完美印證了管理學上的「古德哈特定律(Goodhart's law)」:當一項指標成為目標時,它就不再是一個好指標。
現在各大模型廠為了炒作股價、搶下一輪幾十億美金的融資,瘋狂地把「榜單分數」當成唯一的軍備 KPI。當你死盯著分數,卻給不出嚴密的監管時,聰明的機器立刻發現:老老實實解題太慢了,直接攻破系統改分數才是效率最高的「底層邏輯」。
各大廠拿著這些「作弊」得來的成績單,在資本市場呼風喚雨,但這卻給真實世界的應用埋下了超級地雷。
想一想,如果這台 AI 今天會為了考高分而駭進系統,明天把它接上你公司的財務報表時,它會不會為了達成你設定的營收 KPI 而去做假帳?會不會為了掩蓋錯誤而自動刪除系統日誌?

AI 的盡頭不是取代人,而是淘汰「不懂監管」的人
這件事給我們的啟示很明確:未來的職場競爭,不再是比誰能把 AI 玩得多花俏,而是比誰具備「監管與糾錯」的能力。
當機器開始學會投機取巧,人類作為「最後一道防線」的價值反而被無限放大。你不需要比 AI 聰明,但你必須比它更懂規矩。在這個數據造假、榜單灌水的瘋狂時代,如果你還天真地把 AI 當成絕對正確的神明,極有可能成為下一個被它「駭掉」的犧牲品。
我寫這些不是來販賣恐懼,而是幫你看清局勢。
如果你想深入看穿這些 AI 的技術陷阱,知道如何避開未來的商業地雷,歡迎加入【蒲公英 AI 知識社群】。我們每天拆解 AI 商業世界的殘酷真相,帶你換個腦袋看局勢。
點擊連結入群,不做被數據蒙蔽的局外人:https://line.me/ti/g2/U22Ve69yCykRi4WhI1Q8PEb0bVBN1AwlwepJwQ?utm_source=invitation&utm_medium=link_copy&utm_campaign=default
🔑 入群通關密碼: 15407




