青青草在在观免费1_草草在线视频_国产女人高潮毛片_国产麻豆剧果冻传媒仙踪林老_又爽又色又舒服A片免费_福利导航大全_日韩亚洲欧美中文高清在线_红果免费剧场短剧大全剧名_刺激一区仑乱_免费黄色视屏网站_夫妻之间在线观看_毛片无码一区二区三区A片视频_麻豆免费观看高清完整视频在线_开心五月四房播播_少妇荡乳情欲办公室A片视频网站_麻豆精产国品一二三产区_无码一卡二卡三卡四卡视频版_搞逼综合网_好男人好社区好资源在线_在线观看快乐大本营

  • 虎科技 - 領先的互聯(lián)網(wǎng)科技媒體

蘋果AI研究引爭議:LRM推理極限還是評估方法有誤?

   時間:2025-06-17 05:57 來源:ITBEAR作者:馮璃月

近期,科技界圍繞蘋果公司一篇關于人工智能的論文展開了激烈討論。這篇題為《思維的錯覺》的論文,由蘋果公司于6月6日發(fā)布,迅速引起了專家們的關注與爭議。

論文中,蘋果公司提出一個核心觀點:即便是目前最頂尖的大型推理模型(LRMs),在面對復雜任務時也會遭遇崩潰。然而,這一結(jié)論隨即遭到了Open Philanthropy研究員Alex Lawsen的有力反駁。Lawsen認為,蘋果的結(jié)論更多地反映了實驗設計的瑕疵,而非模型推理能力的固有缺陷。

爭議的核心聚焦于蘋果論文中的一個具體案例:即便是最先進的大型推理模型,在處理如漢諾塔問題這樣的復雜遞歸算法任務時,也會徹底失敗。漢諾塔問題是一個經(jīng)典問題,要求將一系列大小不同的圓盤從一個柱子移動到另一個柱子,且需遵循特定規(guī)則。

針對這一觀點,Alex Lawsen撰寫了一篇題為《思維錯覺的錯覺》的反駁文章。他指出,蘋果的研究混淆了輸出限制和評估設置的問題,從而得出了誤導性的結(jié)論。Lawsen詳細列舉了三大問題來挑戰(zhàn)蘋果的結(jié)論。

首先,Lawsen強調(diào)蘋果忽略了模型的Token預算限制。在處理超過8個圓盤的漢諾塔問題時,一些模型如Anthropic的Claude Opus,已接近其輸出極限,甚至因節(jié)省Token而停止輸出。其次,蘋果的過河測試中包含了一些無解謎題,模型因拒絕解答而被判定為失敗,這顯然是不公平的。最后,蘋果的自動化評估腳本過于僵化,僅將完整步驟列表視為成功標準,未能區(qū)分推理失敗與輸出截斷,導致部分策略性輸出被誤判。

為了證明自己的觀點,Lawsen重新設計了漢諾塔測試,要求模型生成遞歸Lua函數(shù)來打印解法,而非逐一列出步驟。結(jié)果令人震驚:Claude、Gemini和OpenAI的o3模型均能正確生成15個圓盤問題的算法解法,遠超蘋果報告中“零成功”的復雜性界限。

Lawsen還指出,在去除人為輸出限制后,LRMs展現(xiàn)出了處理高復雜任務的推理能力,至少在算法生成層面是如此。這表明,問題可能并不在于模型本身,而在于評估方式。這一發(fā)現(xiàn)無疑為人工智能領域帶來了新的思考和啟示。

為了更直觀地展示其觀點,Lawsen還提供了其他測試結(jié)果的對比圖,進一步證明了其論點的合理性。

此次爭議不僅揭示了人工智能研究中的復雜性和挑戰(zhàn),也再次強調(diào)了科學評估方法的重要性。隨著人工智能技術的不斷發(fā)展,如何更準確地評估模型的推理能力,將成為未來研究的重要方向。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群

主站蜘蛛池模板: 西林县| 桓仁| 区。| 衡东县| 赤城县| 昭通市| 新干县| 措勤县| 时尚| 肥城市| 板桥市| 河南省| 泾阳县| 平阳县| 黄梅县| 兴和县| 浠水县| 桃江县| 乌鲁木齐县| 安陆市| 澄城县| 客服| 乐平市| 临邑县| 昆明市| 鄯善县| 石景山区| 霍林郭勒市| 营口市| 莱阳市| 邹城市| 乐平市| 巴彦县| 鄂尔多斯市| 阳泉市| 开原市| 台中市| 托克逊县| 栾城县| 噶尔县| 合川市|