摘

谷歌用8B小模型暴打Gemini pro ! 神论揭秘大模型真正的“长期记忆”

摘要生成於 2026-07-03 ・回報問題

這部影片深入拆解了最新論文 SkillOS 的架構，探討如何透過一個 8B 的小模型（技能策展人）來管理大模型的「程序性記憶」，讓 AI 能像人類老員工一樣從經驗中自我進化，並在特定任務中超越強大的 Gemini Pro。

先說結論：

SkillOS 透過「執行與管理分離」的策略，利用 8B 小模型將過往經驗提煉成可讀、可編輯的 Markdown 技能庫，不僅顯著提升任務成功率，還能大幅減少 Token 消耗與響應時間。

重點：

- [02:37] 執行與策展分離：SkillOS 將系統拆分為「執行者」（Executor，凍結的大模型）與「策展人」（Curator，可訓練的 8B 小模型）。執行者負責幹活，策展人則負責觀察結果並在技能庫中執行「插入、更新、刪除」操作。

- [05:08] 白盒化經驗管理：與傳統向量數據庫不同，SkillOS 將經驗存儲為純文本的 Markdown 檔案（包含 YAML 標籤與「何時不該使用」的避坑指南），這使得經驗高度可解釋，人類開發者甚至能直接上手修改。

- [07:41] 核心算法 GRPO：採用分組獎勵策略優化（Grouped Reward Policy Optimization），核心邏輯是「後人的成績決定前人的筆記價值」。如果後續任務因某條筆記成功，則給予策展人獎勵。

- [08:02] 四大 KPI 評估體系：系統從下游任務成功率、操作有效性、專家評審（用更大模型如 Qwen-32B 打分）以及「壓縮精煉度」四個維度訓練小模型，防止其寫出無意義的流水帳。

- [10:19] 暴打 Gemini Pro 的數據：在 ALFWorld 評測中，配備 8B 策展人的 Qwen-8B 模型成功率達 61.2%，超越了零樣本（Zero-shot）下的 Gemini-2.5-Pro (50.7%)，且交互步數從 21.1 步降至 18.9 步。

- [12:42] 學會「斷捨離」的湧現能力：訓練後期，策展人會主動減少「插入」轉而增加「更新」與「刪除」，將瑣碎經驗提煉成「元技能」（Metaskills，如失敗恢復策略、空間推理邏輯），實現真正的自我進化。

- [16:41] 當前的瓶頸與未來：目前技能檢索仍依賴傳統的 BM25 關鍵詞匹配，未來需要更強的「智能體主動檢索」（Agentic Search）以及將技能升級為可直接運行的代碼片段。

記住這件事：

「在垂直領域的經驗管理任務上，一個受過專業強化學習（RL）訓練的『技校生』（8B 小模型），絕對碾壓沒受過相關訓練的『清華學霸』（頂級大模型）。」

每部影片都想要這樣的摘要?

裝摘要王 Extension — 沒字幕的影片也能摘

在電視或手機上看 YouTube?

登入摘要王,對影片按個讚,摘要自動出現在你的收件匣。

登入摘要王