【技術解析】AI 知道「洗衣服要一小時」,但不知道它自己需要 0.3 秒
研究發現 LLM 在任務前估計時間時,會系統性高估 4-7 倍,把 1 秒完成的任務預期成人類的「幾分鐘」——這不是數學問題,是缺乏「自身推理速度」的體驗認知。
這篇文章在說什麼
你問 GPT-5:「這個 JSON 解析任務需要多久?」它可能會說「大約幾分鐘」——但實際上它用了 0.3 秒。這不是估算誤差的問題,這是 LLM 對「時間」的認知架構根本性地脫離了它自己的實際運作。
這篇論文(入選 ICLR 2026 “I Can’t Believe It’s Not Better” Workshop)提出了並系統性地量化了這個問題:LLM 無法估計自己完成任務需要的時間。研究者設計了四個實驗、橫跨 68 個任務和 4 個模型家族,結論是:這種失敗是結構性的,來自於模型缺乏對「自身推理時間」的體驗認知。
為什麼重要
如果你在構建 Agent 系統,這個發現直接影響你的設計決策。
LLM 的時間估計失敗不是「不準確」,而是系統性高估 4-7 倍。 在涉及時限的場景——限時回應用戶、排程優先順序、多步任務的超時控制——如果你根據 LLM 的「估計」來設計超時邏輯,你會得到完全錯誤的系統行為。
更根本的問題是:這種失敗在 multi-step agentic 設定中依然存在,且錯誤幅度擴大到 5-10 倍。這意味著任何基於「模型認為需要多久」來設計的時間管理策略,都是在沙灘上蓋房子。
技術細節
實驗一:絕對時間估計
要求模型在任務執行前估計所需時間。結果:所有模型都系統性高估,幅度為實際時間的 4-7 倍(p<0.001)。模型會預期「人類尺度的分鐘」來完成實際上幾秒就結束的任務。這不是少數例外,是跨所有模型家族的共同模式。
實驗二:相對順序判斷
給模型兩個任務,要求判斷哪個需要更長時間——這是比絕對估計更簡單的任務。但研究者設計了一組「反直覺配對」:任務複雜度標籤誤導性極高的配對。在這組上,GPT-5 的準確率只有 18%——低於隨機猜測的 50%(p=0.033)。
這個數據的意涵:當任務描述的複雜度表面特徵與真實難度不符時,模型完全被表面特徵誤導,直接回到我們昨天報告過的「表面線索覆寫隱性約束」問題的模式。
實驗三:事後回溯估計
任務完成後再問模型「你用了多久」,回溯估計與實際時間相差一個數量級,方向隨機——有時高估,有時低估,且幅度與實際時間無關。模型既不能準確估計未來,也不能準確回顧過去。
實驗四:Multi-step Agentic 設定
在多步 Agent 流程中測試時間估計能力。每一個步驟的錯誤會累積,最終的總時間估計誤差達到 5-10 倍。更糟的是:Agent 的中間步驟失敗(因為超時、工具調用錯誤等)本身也與「對自身推理速度的錯誤判斷」直接相關。
根本原因:缺乏體驗認知
研究者的結論框架很有說服力:LLM 從訓練語料中學到了命題性的時間知識(「洗衣服通常需要一小時」),但從未有過對「自己推理一次需要多少時間」的體驗。沒有體驗,就沒有直覺;沒有直覺,就無法產生可靠的估計。
這與人類的時間感知機制形成對比:人類估計任務時間,部分基於我們過去完成類似任務的經驗——這是一種 embodied 的、感覺運動式的知識,而不只是語義上的理解。
我的觀點
這篇論文最讓我認同的洞察是區分了「命題知識」和「體驗知識」——LLM 可以告訴你「大多數 JSON 解析需要 1-2 秒」,但它自己完成這個任務需要 0.3 秒,這個數字存在於它的語義網絡中,卻沒有任何東西讓它在實際輸出這個數字之前先去存取「自身速度」的資訊。
對工程師而言,這裡有一個直接的設計啟示:不要依賴模型來估計它自己需要多久。如果你需要時間管理,必須從外部測量(比如實際測量相似任務的執行時間),或者給模型一個它可以存取和更新的「自身速度描述」——相當於讓模型維護一個自己的 benchmark 記錄,而不只是在語義上猜測。
這個發現對 agent 系統的影響是結構性的:大多數 agent 框架在某種程度上依賴「模型知道什麼時候應該放棄或切換策略」——如果模型連自己需要多長時間都無法估計,這種自我調節能力就永遠無法可靠地實現。
參考連結
- Can LLMs Perceive Time? An Empirical Investigation (arXiv)
- ICLR 2026 I Can’t Believe It’s Not Better Workshop