Skip to content

/goal 功能與 Evaluation Rubric — 讓 AI 自動跑 27 小時不偏離

Gary Chen(2026-05-24)。從 Anthropic 研究出發,拆解三大 AI 工具同時推出的 /goal 功能背後原理,並提出六步 SOP 將抽象的「品味」轉化為可自動執行的評分標準。

目錄


為什麼 AI 會偷懶停下來

真正的自動化不只是「把任務從你手上移到 AI 手上」,而是把那件事從你的心上徹底移開。只要心裡還掛著「等 AI 跑完我要回去改」,注意力就被佔用。

Anthropic 研究發現,LLM 做到一半會停的根本原因叫做 Context Anxiety(上下文焦慮)

Context Anxiety 運作機制:

  Context Window 使用率上升
        │
        ▼
  LLM 感覺快滿了 → 開始慌
        │
        ▼
  啟動 wrap-up 機制 → 想要快點交差 → 提前停下

這是刻在 LLM 基因裡的「下班心態」。 /goal 功能就是為了對抗這種惰性而生。


三家公司同時推出 /goal

Claude Code、OpenAI Codex、Hermes Agent 幾乎同時推出同名功能 /goal

工具 使用方式 核心行為
Claude Code /goal <目標> 自動迭代到目標達成
OpenAI Codex /goal <目標> 同上
Hermes Agent /goal <目標> 同上

這不是巧合——三家都在解決同一個問題:AI 做到一半停下來問「我可以繼續嗎?」或更糟地,沒做完就假裝完成了。

歷史對照:去年中社群很火的插件 RoughLoop(靈感來自辛普森家庭裡永不放棄的角色 Ralph),做的就是同一件事——持續迭代到完成。如今這個理念變成了官方功能。


/goal 的運行原理

/goal 背後採用雙角色架構

┌─────────────────────────────────────────────────┐
│              /goal 運行架構                       │
│                                                 │
│   ┌──────────┐      ┌──────────┐                │
│   │  實作者   │◄────│  評審    │                │
│   │ (Worker) │ 指令 │(Reviewer)│                │
│   └────┬─────┘      └────┬─────┘                │
│        │                   │                     │
│        ▼                   ▼                     │
│    執行任務           檢查目標                    │
│    產出成果           是否完成?                  │
│        │                   │                     │
│        │              ┌────┴────┐                │
│        │              │         │                │
│        │            未完成     已完成             │
│        │              │         │                │
│        │         點出問題     結束                │
│        │         給新方向    回報成果             │
│        │              │                          │
│        └──────────────┘                          │
│           (持續迭代)                              │
└─────────────────────────────────────────────────┘

比喻:就像在豬鼻子前面吊一根胡蘿蔔——豬還沒吃到就不會停下來,只有在到達終點時才給。


好提示詞五要素

隨便丟「把這個專案改得好一點」= AI 五分鐘交差。好提示詞需要五個關鍵元素:

# 元素 說明 範例
1 Outcome(結果) 完成時應該是什麼狀態 結帳頁反應速度降到 0.2 秒以內
2 Verification(驗證) 怎麼證明真的完成了 用速度測試工具驗證
3 Constraint(限制) 哪些事不能做 只能改結帳區塊,其他功能保持完好
4 Iteration Policy(迭代策略) 每次嘗試之間要做什麼 記錄改了什麼、測出速度、下一步方向
5 Error Handling(錯誤處理) 什麼情況要停下來回報 測試工具跑不起來或所有方法都試過

好提示詞範例(vs 壞提示詞):

❌ 壞:「把這個專案改得好一點」
   → AI 做一兩個小改動就說完成了

✅ 好:「把網站結帳頁面的反應速度降到 0.2 秒以內,
     用速度測試工具驗證。過程中其他功能保持完好無缺。
     只能改結帳區塊的程式碼跟相關測試。
     每改一次就記錄改了什麼、測出速度、下一步方向。
     如果工具跑不起來或方法都用盡,停下來告訴我。」

核心洞察:好提示詞的關鍵不是 prompt engineering,而是你把「完成的定義」寫得有多明確。


Anthropic 的網頁設計實驗

Anthropic 讓 Claude 設計「漂亮的網頁」,面臨的核心問題是:漂亮是主觀的,AI 不會覺得自己做的東西醜(再醜都會自評為「現代感高質感」)。

解法:拆成四個可評分的維度

 Anthropic 網頁設計評估框架
 ┌──────────────┬────────────────────────────────────┐
 │ 維度         │ 判斷標準                           │
 ├──────────────┼────────────────────────────────────┤
 │ 1.設計品質   │ 顏色/字體/排版是否共同營造出       │
 │              │ 獨特的氛圍和識別感                   │
 ├──────────────┼────────────────────────────────────┤
 │ 2.原創性     │ 是否有刻意設計選擇?還是在用預設   │
 │              │ 模板?(如漸層卡片=沒原創)        │
 ├──────────────┼────────────────────────────────────┤
 │ 3.技術執行   │ 字體階層、間距、配色對比是否一致? │
 ├──────────────┼────────────────────────────────────┤
 │ 4.可用性     │ 使用者能找到主要按鈕嗎?能直覺     │
 │              │ 完成來到網站的最初目的嗎?           │
 └──────────────┴────────────────────────────────────┘

關鍵技巧:加權模型弱項

Anthropic 發現 Claude 在技術執行可用性上通常做得好,但在設計品質原創性上容易產出平庸結果。所以他們故意提高弱項的評分權重,逼模型往不擅長的方向突破。

結果:第 10 輪的飛躍

  • 第 1-9 輪:產出符合預期但不特別的美術館 landing page
  • 第 10 輪:突然用 CSS 3D 透視渲染出虛擬房間,藝術品掛在牆上,觀眾走進不同廳——研究人員說「從未看過從單次 prompt 產出的創意」

非線性成長:不是每輪都比上一輪好。第 10 輪可能比第 15 輪漂亮。但只要評審和執行者繼續對話,複雜度和野心會增加,某幾輪會出現意料之外的飛躍。

評審的工作方式

不是讓評審看程式碼,而是讓評審用 Playwright 打開瀏覽器截圖,像真人一樣看實際畫面再打分。


六步 SOP:把品味變成 Rubric

這是影片最實操的部分,適用於任何「質化」工作(寫作、設計、影片剪輯等)。

Step 1:讓 AI 先跑一輪 baseline

不要急著寫 rubric。先丟 5-10 個任務給 AI,讓它隨便跑。這是在測驗 AI 目前的基準能力。

Step 2:親自看 AI 的產出,記錄「皺眉時刻」

每一個產出都親自看。重點不是「哪裡好」,而是皺眉的具體原因

常見皺眉原因示例(寫作):
├── 開頭沒有 hook,「在這個快速變化的時代」這種廢話開場
├── 沒有提供具體例子或數據
├── 滿滿的 AI 腔調(破折號、不是 A 而是 B 的句型)
└── 文章沒有作者個人視角

Step 3:把皺眉理由分類成維度

把散亂的清單收斂成幾個大類。例如 50 條皺眉理由可能收斂成:

皺眉理由 → 維度收斂示例

「邏輯有斷裂」
「前後文接不起來」──────→ 維度 1:邏輯鬆散
「沒有具體例子」
「沒有個人視角」─────────→ 維度 2:沒有人味
「用了破折號」
「不是 A 而是 B」─────────→ 維度 3:AI 腔調
「開頭沒 hook」

Step 4:把每個維度整理成具體案例

這是整套 rubric 的核心。不能寫「避免 AI 味」這種抽象描述,要寫:

❌ 抽象:「保持原創性」
✅ 具體:
   - 絕對不要用 Inter, Roboto, Arial, system fonts
   - 絕對不要用漸層層蓋在白色卡片上
   - 絕對不要用「在這個快速變化的時代」開頭
   - 絕對不要用「不是 A 而是 B」句型
   - 絕對不要用破折號連接兩個短句當節奏感

每一條都要評審一眼就能抓到、可推斷的標準

Step 5:用多樣化案例取代單一範例

Anthropic 的血淚教訓:一開始 rubric 寫了「博物館等級的質感」,結果所有產出都變成博物館風,極度單一。

❌ 單一:「設計成博物館等級的質感」
   → 所有產出都長一樣

✅ 多樣:列出 11 種風格讓 AI 選擇
   → brutalist / art deco / pastoral / industrial /
     retro-futuristic / ...(根據當下狀況選擇)

原理:AI 容易對單一範例 overfitting(過度遵從),多個方向才能確保多樣性、激發創意。

Step 6:跑起來,人工校準

把 rubric 放進 /goal prompt,讓 AI 跑幾輪後人工抽查:

  • 如果評審判斷和你的直覺不一致 → rubric 沒抓到你真正的標準,回去修改
  • 通常三四輪校準後,你會發現內心對「做得好」的定義正在被一條一條梳理出來

核心觀點

影片最終想傳達的核心:

Evaluation > Prompt Engineering > Context Engineering

不論是 /goal 功能、Anthropic 的研究、還是 Andrej Karpathy 推出的 AUTOMODEL,全部指向同一件事——你能不能定義清楚「什麼叫做得好」

Rubric 表面上是給 AI 用的,實際上是在逼你把腦中模糊的品味具體化成文字。一旦寫成文字,AI 就能幫你守住它、大規模執行它。


相關資源

相關筆記

  • [[AI Agent 自動化工作流]]
  • [[提示詞工程核心原則]]