亚洲精品久久久992KVTV,国产熟妇搡BBBB搡BBBB搡,久久信息网

微軟清華北大聯手，推出RRMs模型，讓AI推理更智能高效！

時間：2025-05-27 14:36 來源：ITBEAR作者：楊凌霄

近日，科技界迎來了一項新的突破，微軟研究院攜手中國頂尖學府清華大學與北京大學，共同推出了一項名為獎勵推理模型（RRMs）的創新技術。這項技術旨在通過動態的計算資源分配，優化復雜任務的評估效果，為人工智能領域帶來了新的曙光。

強化學習（RL）作為當前大語言模型（LLM）后訓練的關鍵方法，已經引起了廣泛的關注。通過人類反饋（RLHF）或可驗證獎勵（RLVR）提供的監督信號，強化學習在模型訓練中發揮著舉足輕重的作用。然而，盡管RLVR在數學推理中展現出巨大潛力，但其對可驗證答案訓練查詢的依賴，限制了其在通用領域的大規模應用。

現有的獎勵模型主要分為標量型和生成型兩大類，但它們在測試時計算資源的擴展上均存在不足。傳統的做法是對所有輸入一視同仁，統一分配計算資源，這種“一刀切”的方式缺乏對復雜查詢的細致分析能力，導致評估結果不盡如人意。為了打破這一瓶頸，微軟研究院、清華大學和北京大學的科研團隊聯手推出了RRMs。

RRMs的核心優勢在于其顯式推理過程。在給出最終獎勵之前，RRMs會執行一系列復雜的推理步驟，根據任務的復雜性自適應地分配額外的計算資源。這一創新機制使得RRMs在面對獎勵不明顯的復雜查詢時，能夠投入更多的測試時計算資源，從而得到更準確的評估結果。

RRMs基于Qwen2模型，采用了Transformer-decoder架構，將獎勵建模轉化為文本補全任務。在生成推理過程后，RRMs會給出最終的判斷。為了全面評估RRMs的性能，研究團隊利用RewardBench庫進行了系統分析，評估指標涵蓋了指令遵循性、幫助性、準確性、無害性和細節水平等多個方面。

RRMs還支持多響應評估，通過ELO評分系統和淘汰賽機制，結合多數投票策略，進一步提升了計算資源的利用率。在RewardBench和PandaLM Test基準測試中，RRMs展現出了卓越的性能。特別是在推理類別中，RRM-32B的準確率高達98.6%，與使用相同數據訓練的DirectJudge模型相比，RRMs展現出了顯著的性能優勢。

在獎勵引導的最佳N推理（Best-of-N Inference）和后訓練反饋中，RRMs同樣超越了所有基線模型，并進一步提升了多數投票機制的效率。研究還發現，隨著模型規模從7B、14B擴展到32B，更長的推理時間始終能夠帶來準確性的提升。RRMs通過并行和順序擴展方法高效地利用了計算資源，為傳統的標量獎勵模型提供了強有力的替代方案。

這一創新成果不僅為人工智能領域帶來了新的突破，也為未來的智能系統發展奠定了堅實的基礎。RRMs的推出，標志著我們在復雜任務評估方面邁出了重要的一步，為人工智能的廣泛應用開辟了新的道路。

隨著技術的不斷進步和創新，我們有理由相信，未來的智能系統將更加智能、高效和人性化。RRMs的成功推出，無疑為這一愿景的實現注入了新的活力和動力。

更多>同類內容

宏碁重啟手機市場：Super ZX系列低價入市，	細菌“發電呼吸”新機制，或將引領生物技術
RTX 5090歐洲降價，高端顯卡市場價格波動，	美光與Astera合作，PCIe 6.0 SSD樣品順序讀