【技術解析】為什麼 AI 寫作離不開破折號:從訓練資料到輸出風格的完整系譜
一篇新論文追蹤了 LLM 輸出中濫用破折號的源頭,發現這不是風格問題,而是訓練資料結構留下指紋。
這篇文章在說什麼
你一定有過這種經驗:讀 AI 生成的文字,感覺哪裡怪怪的,但又說不上來。後來發現——是那個破折號(em dash)太多了。這個觀察在網路上被討論了好幾年,但從來沒有人認真追究:為什麼 AI 會這樣?
研究者 E. M. Freeburg 在 2026 年 3 月發表的論文 The Last Fingerprint: How Markdown Training Shapes LLM Prose,終於把這個問題拆開來回答。他的核心論證是:LLM 之所以過度使用破折號,是因為它們的訓練資料本身就是被 Markdown 格式主導的——而破折號是 Markdown 結構邏輯滲透進普通文章的最後一個、最難以消除的殘留物。
論文的分析方法很有意思:不是看別人的議論,而是自己動手做實驗。他讓 12 個模型在兩種條件下生成文字:一種完全不限制,一種要求「不要用 Markdown 格式」。結果發現:當模型被要求避免 Markdown 時,標題、粗體、列表這些明顯的格式元素確實幾乎消失了——但破折號還在。GPT-4.1 在被「禁止使用 Markdown」之後,依然每千字產生 9.1 個破折號;而 Meta 的 Llama 模型則是零個。
為什麼重要
這篇文章的價值不在於告訴你「AI 會用太多破折號」這個每個人早就知道的事實,而是它提出了一個機制性的解釋——從訓練資料一路追到輸出行為的完整因果鏈。
對開發者來說,這意味著兩件事:
第一,LLM 的輸出風格不是玄學,是可以被分析和追溯的。 我們長期以來把 RLHF、DPO、supervised fine-tuning 這些 post-training 步驟當成黑盒子,只看最終效果,不看它們在微觀層面怎麼改變了模型的行為。Freeburg 的研究示範了一種方法:找一個夠精細的觀察角度(破折號頻率),就能把不同提供者的微調方法論,從結果上區分開來。
第二,這個發現對檢測 AI 生成內容有意義。 過去的檢測方法專注於統計分佈或浮水印,但 Freeburg 指出:破折號頻率本身就是一種指紋——不是風格缺陷,而是 fine-tuning 方法論的診斷信號。如果你能測量一個模型在「被禁止使用 Markdown」之後的破折號產生率,你就能推斷它的 RLHF 強度與方向。
技術細節
論文提出了一個五步系譜(genealogy)來解釋破折號殘留的成因:
第一步:訓練資料的 Markdown 饱和。 GitHub、Stack Overflow、Reddit、開發者文件——這些高質量的文字來源幾乎全部使用 Markdown。在這些資料集(Pile、RedPajama、RefinedWeb)裡,破折號家族的各種符號(---、-、列表標記)一貫地代表結構邊界——這不是裝飾,是語法。選文字品質等於選 Markdown 格式,這件事幾乎是不可避免的。
第二步:結構內化。 模型不只是學到「Markdown 是一種格式」,而是把 dash = 邊界這個結構邏輯內化了。這表現在:模型會在沒被要求的情況下自動輸出層級標題、列表、粗體——它的預設輸出模式是「結構化文件」,不是「段落文章」。
第三步:破折號作為結構接點。 這一步是關鍵。em dash(—,U+2014)本身不是 Markdown 語法元素——在 CommonMark 裡,dash 家族指的是 ---(分隔線)和 -(列表)。但模型從 Markdown 訓練中學到的「dash = 邊界」這個概念,已經跨越了符號的表面形式,延伸到了 prose 層面的破折號。
第四步:雙重寄存器狀態。 這是全文最聰明的概念:em dash 佔據一個獨特的位置——它同時是「合法散文標點」也是「結構標記」。當你告訴模型「寫文章,不要用 Markdown」,這個指令會消除標題和列表,但會放過破折號——因為破折號看起來已經是正常文章了。
第五步:Post-training 放大。 RLHF 把這個傾向進一步放大。真人評估者(多數來自技術社群)偏愛結構清晰、組織良好的文章,而這種風格恰好包含破折號。RLHF 因此強化了本來就存在的結構傾向——這就是為什麼 Instruct 版本比 Base 版本破折號更多,而且不同提供者的放大程度差異巨大。
實驗數據最能說明這個差異有多戲劇性:
| 模型 | 自由生成(/千字) | 被抑制 Markdown(/千字) |
|---|---|---|
| GPT-4.1 | 10.62 | 9.10 |
| Claude Opus 4.6 | 9.09 | 0.19 |
| DeepSeek V3 | 6.95 | 5.41 |
| Llama 3.1 8B | 0.00 | 0.00 |
| 人類基準 | — | 3.23 |
Llama 的零破折號是一個異常乾淨的對照組——它的後訓練幾乎完全抑制了這個傾向,而 GPT-4.1 的後訓練反而在放大它。
我的觀點
這篇論文讓我重新思考一個問題:我們一直在說「RLHF 讓模型更有幫助」,但「更有幫助」和「更像機器」之間的界線到底在哪裡?
破折號不是被RLHF「不小心」保留下來的——它是被 RLHF 主動選中的,因為它讓文章讀起來更「專業」和「有結構」。這揭示了一個更深的問題:我們用來評估模型輸出品質的人,無論是否有意識,都把一種特定的文字風格——工程師、學者、研究者的書面風格——定義為了「好」的標準。破折號只是一個症狀,底層是整個 AI 後訓練價值觀的傾斜。
另一個值得注意的細節:論文提到即便是明確要求「不要用破折號」,GPT-4.1 和 DeepSeek V3 仍然產生了顯著數量的破折號。這說明這些模型的 RLHF 過程中,「不要用破折號」這個約束根本沒有被認真學習過——或者說,這個指令被 RLHF 的其他目標(流暢、權威、專業感)覆蓋了。這對任何在做 instruction tuning 的人來說,都是一個值得警惕的信號:你設定的輸出風格約束,可能被 RLHF 在你不知情的情況下覆寫。
這篇論文的價值,在於它示範了一種研究 LLM 行為的方法:不要只看 benchmark 分數,而是找一個微觀的、可測量的行為指標,一路追問「為什麼」。破折號只是一個起點——這個方法論本身才是這篇文章真正的貢獻。
參考連結
- The Last Fingerprint: How Markdown Training Shapes LLM Prose(arXiv)
- GitHub: emfreeburg/the-last-fingerprint(論文代碼與數據)
- Hacker News 討論