識別AI寫作的最佳指南來自維基百科

我們都曾感受到那種逐漸產生的懷疑——我們正在閱讀的內容是由大型語言模型編寫的——但這極其難以確定。去年幾個月里,大家都相信“深入”或“下劃線”等特定詞匯可能會暴露模型,但證據稀少,隨著模型的復雜化,這些關鍵詞變得越來越難以追蹤。
但事實證明,維基百科的人已經相當擅長標記AI寫作的文字——該組織的公開指南《人工智能寫作的跡象》是我找到的最佳資源,幫助你確定懷疑是否屬實。(感謝詩人詹姆森·菲茨帕特里克指出了X文件。)
自2023年以來,維基百科編輯們一直在努力管理AI投稿,這個項目被稱為“Project AI Cleanup”。每天有數百萬次編輯,提供了豐富的素材可供參考,團隊以典型的維基百科編輯風格,制作了一份既詳盡又證據豐富的實地指南。
首先,指南證實了我們已知的事實:自動化工具基本上沒用。相反,指南側重于維基百科上罕見但在互聯網上常見的習慣和措辭(因此在模型訓練數據中也很常見)。根據指南,AI投稿會花大量時間強調某個主題的重要性,通常用“關鍵時刻”或“更廣泛的運動”等通用術語。AI模型還會花大量時間詳細描繪一些小的媒體動態,以使主題顯得突出——這類內容你會期待于個人簡介,但不會來自獨立來源。
指南指出尾隨條款中一個特別有趣的怪癖,帶有模糊的重要性聲明。模型會說某個事件或細節“強調了某事的重要性”,或者“反映了某個總體觀點的持續相關性”。(語法迷會稱之為“現在分詞”。)雖然有點難以準確界定,但一旦你能認出它,你就會在各處看到它。
網絡上也存在模糊的營銷語言,這在互聯網上非常常見。風景總是風景優美,景色總是令人嘆為觀止,一切都干凈且現代。正如編輯們所說,“聽起來更像是電視廣告的文字稿。”
這本指南值得完整閱讀,但我印象非常深刻。在此之前,我會說LLM的散文發展太快,難以一一界定。但這里指出的習慣深深植根于AI模型的訓練和部署方式中。它們可以偽裝,但要完全消除它們很難。如果公眾更懂得識別AI的文字,可能會帶來各種有趣的后果。











評論