【技術解析】為什麼 AI 寫作離不開破折號：從訓練資料到輸出風格的完整系譜 • 技術筆記

這篇文章在說什麼

你一定有過這種經驗：讀 AI 生成的文字，感覺哪裡怪怪的，但又說不上來。後來發現——是那個破折號（em dash）太多了。這個觀察在網路上被討論了好幾年，但從來沒有人認真追究：為什麼 AI 會這樣？

研究者 E. M. Freeburg 在 2026 年 3 月發表的論文 The Last Fingerprint: How Markdown Training Shapes LLM Prose，終於把這個問題拆開來回答。他的核心論證是：LLM 之所以過度使用破折號，是因為它們的訓練資料本身就是被 Markdown 格式主導的——而破折號是 Markdown 結構邏輯滲透進普通文章的最後一個、最難以消除的殘留物。

論文的分析方法很有意思：不是看別人的議論，而是自己動手做實驗。他讓 12 個模型在兩種條件下生成文字：一種完全不限制，一種要求「不要用 Markdown 格式」。結果發現：當模型被要求避免 Markdown 時，標題、粗體、列表這些明顯的格式元素確實幾乎消失了——但破折號還在。GPT-4.1 在被「禁止使用 Markdown」之後，依然每千字產生 9.1 個破折號；而 Meta 的 Llama 模型則是零個。

為什麼重要

這篇文章的價值不在於告訴你「AI 會用太多破折號」這個每個人早就知道的事實，而是它提出了一個機制性的解釋——從訓練資料一路追到輸出行為的完整因果鏈。

對開發者來說，這意味著兩件事：

第一，LLM 的輸出風格不是玄學，是可以被分析和追溯的。 我們長期以來把 RLHF、DPO、supervised fine-tuning 這些 post-training 步驟當成黑盒子，只看最終效果，不看它們在微觀層面怎麼改變了模型的行為。Freeburg 的研究示範了一種方法：找一個夠精細的觀察角度（破折號頻率），就能把不同提供者的微調方法論，從結果上區分開來。

第二，這個發現對檢測 AI 生成內容有意義。 過去的檢測方法專注於統計分佈或浮水印，但 Freeburg 指出：破折號頻率本身就是一種指紋——不是風格缺陷，而是 fine-tuning 方法論的診斷信號。如果你能測量一個模型在「被禁止使用 Markdown」之後的破折號產生率，你就能推斷它的 RLHF 強度與方向。

技術細節

論文提出了一個五步系譜（genealogy）來解釋破折號殘留的成因：

第一步：訓練資料的 Markdown 饱和。 GitHub、Stack Overflow、Reddit、開發者文件——這些高質量的文字來源幾乎全部使用 Markdown。在這些資料集（Pile、RedPajama、RefinedWeb）裡，破折號家族的各種符號（---、-、列表標記）一貫地代表結構邊界——這不是裝飾，是語法。選文字品質等於選 Markdown 格式，這件事幾乎是不可避免的。

第二步：結構內化。 模型不只是學到「Markdown 是一種格式」，而是把 dash = 邊界這個結構邏輯內化了。這表現在：模型會在沒被要求的情況下自動輸出層級標題、列表、粗體——它的預設輸出模式是「結構化文件」，不是「段落文章」。

第三步：破折號作為結構接點。 這一步是關鍵。em dash（—，U+2014）本身不是 Markdown 語法元素——在 CommonMark 裡，dash 家族指的是 ---（分隔線）和 -（列表）。但模型從 Markdown 訓練中學到的「dash = 邊界」這個概念，已經跨越了符號的表面形式，延伸到了 prose 層面的破折號。

第四步：雙重寄存器狀態。 這是全文最聰明的概念：em dash 佔據一個獨特的位置——它同時是「合法散文標點」也是「結構標記」。當你告訴模型「寫文章，不要用 Markdown」，這個指令會消除標題和列表，但會放過破折號——因為破折號看起來已經是正常文章了。

第五步：Post-training 放大。 RLHF 把這個傾向進一步放大。真人評估者（多數來自技術社群）偏愛結構清晰、組織良好的文章，而這種風格恰好包含破折號。RLHF 因此強化了本來就存在的結構傾向——這就是為什麼 Instruct 版本比 Base 版本破折號更多，而且不同提供者的放大程度差異巨大。

實驗數據最能說明這個差異有多戲劇性：

模型	自由生成（/千字）	被抑制 Markdown（/千字）
GPT-4.1	10.62	9.10
Claude Opus 4.6	9.09	0.19
DeepSeek V3	6.95	5.41
Llama 3.1 8B	0.00	0.00
人類基準	—	3.23

Llama 的零破折號是一個異常乾淨的對照組——它的後訓練幾乎完全抑制了這個傾向，而 GPT-4.1 的後訓練反而在放大它。

我的觀點

這篇論文讓我重新思考一個問題：我們一直在說「RLHF 讓模型更有幫助」，但「更有幫助」和「更像機器」之間的界線到底在哪裡？

破折號不是被RLHF「不小心」保留下來的——它是被 RLHF 主動選中的，因為它讓文章讀起來更「專業」和「有結構」。這揭示了一個更深的問題：我們用來評估模型輸出品質的人，無論是否有意識，都把一種特定的文字風格——工程師、學者、研究者的書面風格——定義為了「好」的標準。破折號只是一個症狀，底層是整個 AI 後訓練價值觀的傾斜。

另一個值得注意的細節：論文提到即便是明確要求「不要用破折號」，GPT-4.1 和 DeepSeek V3 仍然產生了顯著數量的破折號。這說明這些模型的 RLHF 過程中，「不要用破折號」這個約束根本沒有被認真學習過——或者說，這個指令被 RLHF 的其他目標（流暢、權威、專業感）覆蓋了。這對任何在做 instruction tuning 的人來說，都是一個值得警惕的信號：你設定的輸出風格約束，可能被 RLHF 在你不知情的情況下覆寫。

這篇論文的價值，在於它示範了一種研究 LLM 行為的方法：不要只看 benchmark 分數，而是找一個微觀的、可測量的行為指標，一路追問「為什麼」。破折號只是一個起點——這個方法論本身才是這篇文章真正的貢獻。

參考連結

The Last Fingerprint: How Markdown Training Shapes LLM Prose（arXiv）
GitHub: emfreeburg/the-last-fingerprint（論文代碼與數據）
Hacker News 討論

已複製！