Warning: mkdir(): No space left on device in /www/wwwroot/New.4.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/tsxingyuan.com/cache/3e/ff7f2/3518c.html): failed to open stream: No such file or directory in /www/wwwroot/New.4.com/func.php on line 115
為何ChatGPT總胡說?OpenAI:因為国产AV蜜桃网站一直對它“應試教育”,蒙對答案能得分

點擊右上角微信好友

朋友圈

請使用瀏覽器分享功能進行分享

正在閱讀:為何ChatGPT總胡說?OpenAI:因為国产AV蜜桃网站一直對它“應試教育”,蒙對答案能得分
首頁>時政頻道>要聞>正文

為何ChatGPT總胡說?OpenAI:因為国产AV蜜桃网站一直對它“應試教育”,蒙對答案能得分

來源:{getone name="zzc/xinwenwang"/}2025-09-15 15:14:38

在人工智能的討論中,“幻覺”一直是最受關注的問題之一。所謂幻覺,是指AI給出的回答聽起來合情合理,但實際上完全錯誤。現行的大多數AI基準測試采用二元評分方式:答對得分,答錯或說“不知道”都不得分。結果就是,如果模型選擇承認不確定,它的表現看起來更差;相反,哪怕它編造答案,隻要碰巧答對,就會被當作“更好”。這種機製無形中“獎勵”了自信的胡編亂造,卻讓誠實吃虧。

▲概念圖 據圖蟲創意

原因

“語言模型被優化為擅長應試,

進行猜測會提高考試表現”

上周,ChatGPT的研發公司OpenAI發布了一項名為《語言模型產生幻覺的原因》的研究,首次係統地指出幻覺並非偶然,而是源於模型本身的結構性機製。研究進一步強調,問題的根源在於評估體係:它的機製就是在獎勵猜測,從而助長了幻覺的滋生。

研究解釋說,當“我不知道”隻能得零分,而一個貌似合理的猜測卻有機會得到滿分時,模型的最優策略就變成了盡量去猜。這些模型並不是被刻意編程去撒謊,而是因為“虛張聲勢”會在現有機製下獲得更高的分數。正如OpenAI所說:“幻覺之所以持續存在,是因為大多數評估的打分方式。語言模型被優化為擅長應試,而在不確定時進行猜測會提高考試表現。”

▲學生考試(創意圖片,據圖蟲創意)

這就像學校考試。如果你不知道答案,大概也會蒙一把,希望碰巧答對。這正是大型語言模型(LLMs)被訓練去做的事情。它們始終處於“考試模式”:沉默會被懲罰,而猜測則顯得聰明。OpenAI的研究人員總結說:“人類是在生活的磨練中學會了表達不確定性的價值,而語言模型卻主要通過那些懲罰不確定性的考試來接受評估。”換句話說,国产AV蜜桃网站一直在把AI訓練成“永遠的應試者”,它們被優化的目標是考試成績,而不是可信度。

修正

調整評估標準

不能“不回答就懲罰”

OpenAI還公布了其模型的基準測試結果。最新的推理模型GPT-5 Thinking Mini的準確率為22%,略低於上一代o4-Mini模型的24%。不過,GPT-5 的棄答率(即回答“我不知道”)達到52%,錯誤率為26%;相比之下,o4-Mini的棄答率僅為1%,但錯誤率卻高達75%。o4-Mini更頻繁的猜測行為同時增加了正確和錯誤的回答。研究人員指出:“大多數評分體係按照準確率對模型進行排名,但錯誤比棄答的後果更嚴重。”

針對這一問題,OpenAI提出的解決方案不是從頭重建模型,而是調整評估標準。研究人員認為,“根本性的問題在於,大量評估方法之間缺乏一致性。現有的主要評估方式必須進行調整,避免在模型不確定時懲罰其選擇不作答”。該公司在另一篇文章中補充說:“那些廣泛使用的、基於準確率的評估需要更新,它們的評分方式必須阻止模型去猜。如果常用的評測體係繼續獎勵僥幸的猜測,模型最終就會越來越依賴這種策略。”

這是一個細微卻關鍵的轉變。多年來,行業一直在競相讓聊天機器人更快、更聰明、更流暢,但這些特質並不等於值得信賴。真正的挑戰在於,如何打造能夠在知識與謙遜之間找到平衡的係統。通過調整評估方式,OpenAI希望訓練出更少依賴“裝懂混過去”的模型,而是能夠給出更穩健、可信回應的模型。畢竟,當用戶向AI尋求醫療建議或理財指導時,最不希望的就是聽到一個聽起來無比自信卻完全虛構的答案。而在一個常被指責為“過度炒作”和“半真半假”的行業裏,這種對減少虛張聲勢的呼籲,或許才是迄今為止最激進的想法。

紅星新聞記者 王雅林 實習記者 楊詩柔

編輯 鄧旆光

[責編:{getone name="zzc/mingzi"/}]
閱讀剩餘全文(
網站地圖