【技術解析】AI 知道「洗衣服要一小時」，但不知道它自己需要 0.3 秒 • 技術筆記

這篇文章在說什麼

你問 GPT-5：「這個 JSON 解析任務需要多久？」它可能會說「大約幾分鐘」——但實際上它用了 0.3 秒。這不是估算誤差的問題，這是 LLM 對「時間」的認知架構根本性地脫離了它自己的實際運作。

這篇論文（入選 ICLR 2026 “I Can’t Believe It’s Not Better” Workshop）提出了並系統性地量化了這個問題：LLM 無法估計自己完成任務需要的時間。研究者設計了四個實驗、橫跨 68 個任務和 4 個模型家族，結論是：這種失敗是結構性的，來自於模型缺乏對「自身推理時間」的體驗認知。

為什麼重要

如果你在構建 Agent 系統，這個發現直接影響你的設計決策。

LLM 的時間估計失敗不是「不準確」，而是系統性高估 4-7 倍。 在涉及時限的場景——限時回應用戶、排程優先順序、多步任務的超時控制——如果你根據 LLM 的「估計」來設計超時邏輯，你會得到完全錯誤的系統行為。

更根本的問題是：這種失敗在 multi-step agentic 設定中依然存在，且錯誤幅度擴大到 5-10 倍。這意味著任何基於「模型認為需要多久」來設計的時間管理策略，都是在沙灘上蓋房子。

技術細節

實驗一：絕對時間估計

要求模型在任務執行前估計所需時間。結果：所有模型都系統性高估，幅度為實際時間的 4-7 倍（p<0.001）。模型會預期「人類尺度的分鐘」來完成實際上幾秒就結束的任務。這不是少數例外，是跨所有模型家族的共同模式。

實驗二：相對順序判斷

給模型兩個任務，要求判斷哪個需要更長時間——這是比絕對估計更簡單的任務。但研究者設計了一組「反直覺配對」：任務複雜度標籤誤導性極高的配對。在這組上，GPT-5 的準確率只有 18%——低於隨機猜測的 50%（p=0.033）。

這個數據的意涵：當任務描述的複雜度表面特徵與真實難度不符時，模型完全被表面特徵誤導，直接回到我們昨天報告過的「表面線索覆寫隱性約束」問題的模式。

實驗三：事後回溯估計

任務完成後再問模型「你用了多久」，回溯估計與實際時間相差一個數量級，方向隨機——有時高估，有時低估，且幅度與實際時間無關。模型既不能準確估計未來，也不能準確回顧過去。

實驗四：Multi-step Agentic 設定

在多步 Agent 流程中測試時間估計能力。每一個步驟的錯誤會累積，最終的總時間估計誤差達到 5-10 倍。更糟的是：Agent 的中間步驟失敗（因為超時、工具調用錯誤等）本身也與「對自身推理速度的錯誤判斷」直接相關。

根本原因：缺乏體驗認知

研究者的結論框架很有說服力：LLM 從訓練語料中學到了命題性的時間知識（「洗衣服通常需要一小時」），但從未有過對「自己推理一次需要多少時間」的體驗。沒有體驗，就沒有直覺；沒有直覺，就無法產生可靠的估計。

這與人類的時間感知機制形成對比：人類估計任務時間，部分基於我們過去完成類似任務的經驗——這是一種 embodied 的、感覺運動式的知識，而不只是語義上的理解。

我的觀點

這篇論文最讓我認同的洞察是區分了「命題知識」和「體驗知識」——LLM 可以告訴你「大多數 JSON 解析需要 1-2 秒」，但它自己完成這個任務需要 0.3 秒，這個數字存在於它的語義網絡中，卻沒有任何東西讓它在實際輸出這個數字之前先去存取「自身速度」的資訊。

對工程師而言，這裡有一個直接的設計啟示：不要依賴模型來估計它自己需要多久。如果你需要時間管理，必須從外部測量（比如實際測量相似任務的執行時間），或者給模型一個它可以存取和更新的「自身速度描述」——相當於讓模型維護一個自己的 benchmark 記錄，而不只是在語義上猜測。

這個發現對 agent 系統的影響是結構性的：大多數 agent 框架在某種程度上依賴「模型知道什麼時候應該放棄或切換策略」——如果模型連自己需要多長時間都無法估計，這種自我調節能力就永遠無法可靠地實現。

參考連結

已複製！