Anthropic

為什麼需要 prompt eval

沒 eval 的 prompt 改進，只是憑感覺換個樣子——eval 之於 prompt 像 test 之於 code。

TL;DR

你寫了一個客服信分類 prompt，自己挑三封信丟進去測，分得不錯，老闆說可以上。

上線第二天：

你開始一個一個改 prompt——加一句「處理多語言」、加一句「忽略 emoji」、再加一句「看完整封信」。改完再試那三封原本的 demo 信，還是分得對，安心了。

但你不知道的是：你加那句「忽略 emoji」順便讓另外 30 封信的分類變糟了。因為你只看那三封原本的 demo case。

這就是沒 eval 的 prompt 工程：每次改完都像在賭。

最常見的「測 prompt」流程：

這個流程的問題不在「不認真」，在規模根本不夠。三個 case 涵蓋不了 prompt 的真實 input 分布。Prompt 改一改 demo 對了，user 一進來各種你想不到的輸入照樣崩。

做法	多少 case	怎麼判斷好不好	改 prompt 後能比較嗎
隨手測幾下	1–3	主觀「看起來對」	沒紀錄、沒辦法
一輪 manual QA	10–20	人盯每一個輸出	很慢，且人會疲勞，case 一多就放水
Eval pipeline	50–500+	grader 給數字分數	可以，直接比平均分

寫 code 沒人會「跑一次沒爆就上 production」。我們會：

Prompt 該用一樣的態度：

Eval 不是 prompt 工程的「後續優化」，而是 prompt 工程的前提。沒有客觀分數，你連「v2 比 v1 好」都證明不了。

很多人覺得 eval 是「公司有錢請 ML team 才在做的事」。其實剛好相反：沒資源的時候才更需要，你經不起上線後才發現 prompt 廢掉。

Eval 不需要一開始就完美：

第一版 eval 的目的不是抓所有 bug，而是建立一個能反覆比較的基準。有了基準，每改一次 prompt 才知道是真的好還是只是換個說法。

寫完 prompt 後常見的三種選擇：

選項 1、2 是所有工程師都掉過的坑（包括我）。寫給人玩的 demo 用 1、2 沒差；寫進 production 的 prompt 一定要 3。

跟上一篇談 temperature 與 structured output 是同一個邏輯：production LLM code 該被當「會壞掉的系統」對待，不是「神奇黑盒子」。Eval 就是這個態度的延伸。

下一篇 eval-workflow 實際走完一輪：怎麼定義任務、怎麼叫 Claude 自動生 dataset、怎麼把第一版 prompt 故意寫爛當 baseline、怎麼從 2.3 分爬到 8 分。