這部影片深入拆解了最新論文 SkillOS 的架構,探討如何透過一個 8B 的小模型(技能策展人)來管理大模型的「程序性記憶」,讓 AI 能像人類老員工一樣從經驗中自我進化,並在特定任務中超越強大的 Gemini Pro。
先說結論:
SkillOS 透過「執行與管理分離」的策略,利用 8B 小模型將過往經驗提煉成可讀、可編輯的 Markdown 技能庫,不僅顯著提升任務成功率,還能大幅減少 Token 消耗與響應時間。
重點:
- [02:37] 執行與策展分離:SkillOS 將系統拆分為「執行者」(Executor,凍結的大模型)與「策展人」(Curator,可訓練的 8B 小模型)。執行者負責幹活,策展人則負責觀察結果並在技能庫中執行「插入、更新、刪除」操作。
- [05:08] 白盒化經驗管理:與傳統向量數據庫不同,SkillOS 將經驗存儲為純文本的 Markdown 檔案(包含 YAML 標籤與「何時不該使用」的避坑指南),這使得經驗高度可解釋,人類開發者甚至能直接上手修改。
- [07:41] 核心算法 GRPO:採用分組獎勵策略優化(Grouped Reward Policy Optimization),核心邏輯是「後人的成績決定前人的筆記價值」。如果後續任務因某條筆記成功,則給予策展人獎勵。
- [08:02] 四大 KPI 評估體系:系統從下游任務成功率、操作有效性、專家評審(用更大模型如 Qwen-32B 打分)以及「壓縮精煉度」四個維度訓練小模型,防止其寫出無意義的流水帳。
- [10:19] 暴打 Gemini Pro 的數據:在 ALFWorld 評測中,配備 8B 策展人的 Qwen-8B 模型成功率達 61.2%,超越了零樣本(Zero-shot)下的 Gemini-2.5-Pro (50.7%),且交互步數從 21.1 步降至 18.9 步。
- [12:42] 學會「斷捨離」的湧現能力:訓練後期,策展人會主動減少「插入」轉而增加「更新」與「刪除」,將瑣碎經驗提煉成「元技能」(Metaskills,如失敗恢復策略、空間推理邏輯),實現真正的自我進化。
- [16:41] 當前的瓶頸與未來:目前技能檢索仍依賴傳統的 BM25 關鍵詞匹配,未來需要更強的「智能體主動檢索」(Agentic Search)以及將技能升級為可直接運行的代碼片段。
記住這件事:
「在垂直領域的經驗管理任務上,一個受過專業強化學習(RL)訓練的『技校生』(8B 小模型),絕對碾壓沒受過相關訓練的『清華學霸』(頂級大模型)。」