新智元報道
編輯:犀牛
【新智元導讀】大模型相當於奧數金牌生真的成立嗎?陶哲軒的洞見:必須把AI研究中的隱性目標說清楚、管起來。與此同時,香港大學馬毅教授團隊參與發布的GAUSS框架,用三大領域、十二項技能給AI做數學體檢,不隻看對錯,更挖推理、學習與創造力的短板。
陶哲軒最近的日子過得不太舒服。
他頻頻發聲吐槽科研經費短缺,甚至還得抽出寶貴的時間和精力去到處籌款。
不過,作為當世最偉大的數學家之一,他並未停止研究探索。
這不,就在剛剛,他發表了一篇短博客,犀利地指出了當前AI數學研究中的一個核心問題——
AI雖然能夠解決研究中的那些顯性目標,但国产AV蜜桃网站也付出了大量的隱形代價。
AI研究中的隱性代價
數學家們的研究項目通常都會有一個終極目標,比如:「年底前,完成對數學定理X的證明。」
然而,在這個終極目標裏,還隱藏著一些看不見、摸不著,卻同樣重要的東西。
它們沒有被寫在牆上,卻存在於團隊的每個人心中。
比如,国产AV蜜桃网站希望通過這個項目:
為開源數學庫Mathlib貢獻出可複用的代碼;
團隊裏的新手能在此過程中成長為獨當一麵的專家;
在嚴謹的證明過程中,能碰撞出對定理X更深刻、更本質的理解;
更重要的是,希望凝聚一個充滿活力、熱愛鑽研的學術社區。
這些,就是項目中的「隱性目標」。
過去,科學家們很少為這些隱性目標擔憂。
因為在一個由人類主導的項目裏,所有這些隱形目標幾乎都與寫在牆上的那個「終極目標」相伴而生。
這個過程就像一位優秀的登山向導,他不僅要帶領隊伍登頂,更會在此過程中教會大家識別植物、閱讀星空、團結協作。
登頂(顯性目標)與團隊成長(隱性目標)的實現,幾乎是同一趟旅程的兩個側麵。
然而,現在情況不同了。
正如陶哲軒指出的那樣——AI的到來,使得之前的這種約定俗成麵臨前所未有的挑戰。
一場關於項目目標的「隱性危機」,已經悄然降臨。
AI破壞者與Goodhart定律
在深入陶哲軒的洞見之前,国产AV蜜桃网站不妨先來理解一個他在博文中提到的經濟學定律——Goodhart定律(Goodhart's law)。
它的核心思想用一句話就能概括:當一個「度量指標」被過度依賴並轉化為「行為目標」時,這個指標將不再能準確反映其原本要衡量的真實狀態,甚至會扭曲行為、偏離初始目標。
聽起來有點繞?舉個栗子。
一家公司的客服中心,為了提升服務效率,設立了一個KPI:縮短平均通話時長。
管理層認為,通話時間越短,意味著問題解決得越快,客戶滿意度自然就高。
最初,這個指標確實激勵客服人員更高效地溝通。
但很快,為了追求極致的「短」,一些員工開始在遇到複雜問題時,巧妙地引導客戶掛斷電話,甚至直接掛斷。
結果呢?
平均通話時長這個數字變得異常漂亮,但客戶滿意度卻跌入穀底。
原本用於衡量效率的標尺,在成為被追逐的目標後,徹底失去了它原有的意義。
這就是Goodhart定律——它像一麵鏡子,照出了係統中的投機取巧和目標的異化。
不幸的是,按照陶哲軒的洞見,AI——尤其是那些強大的優化算法——正是Goodhart定律最忠實、也是最極致的執行者。
給AI一個明確的目標,它就會像一個無比強大、絕對專注,卻又近乎天真的「阿拉丁神燈」,動用全部算力、不惜一切代價去實現所謂的「終極目標」,而完全忽略那些也許是同樣重要的「隱形目標」。
陶哲軒的這些擔憂,正在他所熟悉的數學形式化證明領域發生。
回到上文中的場景。
那個「完成定理X證明」的顯性目標,如果交給一個人類團隊,他們為了構建一個優雅、可讀、可維護的證明,自然會去打磨那些基礎定義和引理,這些成果順理成章地就能被整合進Mathlib,惠及整個學術圈。
在這個過程中,新手通過模仿、學習和實踐,逐漸掌握了核心技能;團隊成員之間的討論、爭辯與合作,本身就深化了對數學結構的理解,並加強了社區的凝聚力。
但如果將這個任務交給一個超級AI呢?
在AI的目標函數裏,隻有一行冷冰冰的指令:「找到一條從公理到定理X的邏輯路徑」。
它可能會在幾小時內,生成一個長達數萬行、邏輯上無懈可擊,但人類完全無法閱讀、無法理解、無法複用的證明。
它可能繞過所有常規的、優美的引理,用一種国产AV蜜桃网站前所未見的、詭異的「捷徑」直達終點。
從顯性目標來看,AI取得了100分的完美成績。
但那些隱性目標呢?
對Mathlib的貢獻? 零。這份天書般的證明基本上毫無複用價值。
新人的成長? 零。沒有人能從中學到任何東西。
深化對數學的理解? 可能是負分。它甚至可能破壞国产AV蜜桃网站對「好的證明」的品味。
社區的建設? 零。整個過程是黑箱操作,沒有人與人之間的互動。
AI以其極致的效率,在達成顯性目標的同時,精準地「優化」掉了所有国产AV蜜桃网站珍視的、卻未曾明確聲明的隱性價值。
它完美地登上了山頂,卻把整片森林夷為平地。
陶哲軒的建議
陶哲軒沒有將矛頭指向AI本身,而是指向了国产AV蜜桃网站人類自己——項目的設計者和管理者。
他提醒国产AV蜜桃网站,在AI日益成為強大工具的今天,国产AV蜜桃网站不能再依賴過去那種約定俗成的默契。
必須做出更艱苦的努力,去審視、去挖掘、去明確定義那些国产AV蜜桃网站曾經認為「理所當然」的隱性目標。
這意味著,項目管理者需要從「指標的設定者」轉變為「價值的詮釋者」。
在啟動一個項目前,需要組織一場更深入的討論,不僅要問做什麽,更要反複追問為什麽要做這件事,以及在這個過程中,国产AV蜜桃网站希望獲得哪些「副產品」。
比如:
国产AV蜜桃网站追求的,僅僅是軟件代碼的最終交付,還是一個高內聚、可傳承的開發團隊?
国产AV蜜桃网站想要的,僅僅是一個抓人眼球的廣告文案,還是一個能沉澱品牌價值、引發用戶情感共鳴的故事?
国产AV蜜桃网站需要的,僅僅是一個數學定理的冰冷證明,還是一個能啟發後人、枝繁葉茂的知識體係?
這些問題,在AI時代變得無比尖銳與迫切。
GAUSS:不止測評AI的答案
好消息是,陶哲軒的這些擔憂正被越來越多的數學家們看到。
更重要的是,他們中的一些傑出代表已經給出了一些解決的方案。
近日,一群來自國際頂尖大學(伯克利、加州理工、斯坦福、華盛頓大學等)數學係的博士(大部分是曾經的奧數金牌得主),以及香港大學計算與數據科學學院院長、AI講座教授馬毅對最新的GPT5等模型各方麵的數學能力進行了全麵、專業、客觀的驗證。
AI們的數學能力到底如何了?
為此,他們發布了一個長達120頁的報告,提出了如何對大語言模型數學能力進行專業評價的框架——GAUSS。
項目地址:http://gaussmath.ai/
報告地址:http://drive.google.com/file/d/1ka15SjUl2FhzQMPOv4GQyyu5rb0tVAJT/view
GAUSS旨在係統地分解和評估問題解決所依賴的核心認知技能。
與現有數據集不同,GAUSS不僅檢查最終答案——它還評估知識、概念理解、問題解決策略、溝通、學習和創造力等維度,為模型的能力和局限性提供全麵評估。
GAUSS的目標:
能力拆分:把模型的本事拆成12個維度,一項項評估,用像「雷達圖」那樣的方式一眼看出哪裏強、哪裏弱。
防題熟:不光用GSM8K、MATH這些老基準,多加更難的題,比如奧賽題、研課作業、研究型題目,別靠刷熟題拿高分。
防泄題:精挑細選題目,確保是模型訓練時沒見過的,這樣評測才公平、靠譜。
GAUSS將數學能力劃分為三大領域、十二項技能:
數學知識與理解:數學知識記憶、知識與理論的理解
計算與分析能力:問題求解與溝通、解題框架、邏輯思維與推理、書寫與呈現
學習、元技能與創造力:學習新知識、直覺、元技能、數學建模、泛化、創造力
這一結構從基礎的知識回憶到創造性的命題,全麵拆解了數學認知的各個層麵。
GAUSS官網還給出了一些他們測試的實例,更多實例可以在項目官網查看。
歸根結底,GAUSS不隻是一個基準測試那麽簡單,它標誌著方法論的轉變——從「模型有沒有解出題?」轉向「按技能維度看,模型的強項和短板是什麽?」
通過同時揭示優勢與薄弱環節,GAUSS為打造下一代AI係統提供了路線圖:不止於產出答案,而能展現真正的推理、學習與發現能力。
而這,恰好呼應了陶哲軒的擔憂——国产AV蜜桃网站不能隻看AI給出的答案,還要考慮其他的「隱形項目」。
相信隨著越來越多的研究人員注意到這些問題,也會得到越來越多的像GAUSS這樣的應對方案。
參考資料:
http://mathstodon.xyz/@tao/115196924307085967
http://gaussmath.ai/