檔案人員借助大語言模型大規模破譯手寫文獻
核心要點
通用大語言模型(LLM)已超越專業手寫識別軟件,在準確率、速度、成本上全面領先。
LLM 可快速破譯歷史檔案、私人手稿、賬簿等,解鎖海量塵封文獻,助力學術研究與家族溯源。
專業工具商 Transkribus 正集成 LLM,行業范式從 “專用模型” 轉向 “通用 AI”。
當我在肯塔基州伯里亞學院檔案館翻閱貝爾?胡克斯(bell hooks)私人日記時,本以為能直接讀到她未經修飾的私密思緒,結果卻陷入困境:她的草書字跡密集、筆畫纏繞,在我眼中幾乎一模一樣,而且還有多年的日記需要整理。我只能逐頁拍照,用 ChatGPT 轉錄內容。沒想到這個方法效果很好,而我也并非檔案館里第一個發現這一點的人。
幾十年來,AI 研究者一直致力于讓計算機可靠識別千變萬化的手寫體。上世紀 60 年代,人們曾預言機器很快就能輕松讀懂手寫文字;但現實是,這個難題催生了數十年的專用研究與完整商業產業。深度學習先驅、圖靈獎得主 Yann LeCun在 80 年代發表手寫數字識別開創性成果,證明在受控環境下的可行性;但真實檔案館的復雜文獻,一直是另一回事。
如今這一界限正在被打破。通用大語言模型雖非完美,卻已足夠實用:曾需要古文字學訓練、定制軟件、數周人工辨識的手寫頁,現在幾秒內就能生成可用轉錄文本。大量保存完好卻難以查閱的檔案,終于變得可檢索,為學者、普通人開啟前所未有的研究可能。
一、大規模破譯:從一戰檔案到 AI 驗證
加拿大威爾弗里德?勞里爾大學歷史教授、生成式 AI 項目協調馬克?漢弗萊斯(Mark Humphries)耗時十年,數字化了1000 萬頁加拿大一戰撫恤金檔案。這些檔案由數百名職員、軍官書寫,字跡各異,無法訓練專用識別模型,查找單個信息如同大海撈針。
2023 年 GPT-4 發布后,漢弗萊斯開始用它處理手寫檔案,初版結果雖粗糙,卻優于以往所有通用工具。團隊耗時兩年系統驗證,2025 年 5 月發表于《歷史方法》期刊:在 18–19 世紀英文信件、法律文書、日記測試中,LLM 在準確率、速度、成本上全面超越專業手寫識別軟件 Transkribus。
Transkribus(未訓練文檔):字符錯誤率約8%
LLM 最優方案:錯誤率降至2% 以下、速度快50 倍、成本僅為1/50
Transkribus(全球 150 + 高校 / 檔案館在用)已宣布集成 LLM,順應行業趨勢。漢弗萊斯說:“這正是我們一直期盼的工具。”
漢弗萊斯認為,AI 領域通用方法終將超越專用方案(理查德?薩頓 2019 年觀點):LLM 訓練數據海量,在無人工標注下,自動習得手寫體與文本的映射關系,無需針對特定字跡單獨訓練。
二、學術革命:解鎖塵封的歷史敘事
莉安?萊迪(Lianne Leddy)(威爾弗里德?勞里爾大學副教授、加拿大原住民歷史研究主席)借助 AI,追蹤北美原住民女性的歷史軌跡:皮毛貿易日志、洗禮記錄、婚姻登記散落在加拿大各地檔案館,幾乎全由男性職員書寫,極少關注原住民女性。
傳統研究需人工翻閱數千份文檔,篩選零星線索;女性姓名常為法語 / 英語 / 蘇格蘭語的音譯變體,或僅標注 “某人之妻”。萊迪說:“傳統方式需耗費畢生精力,AI 徹底改變研究規模。”
三、機構落地:從高校到央行
北卡羅來納大學教堂山分校:用 AI 轉錄黑奴祖先溯源相關特藏文獻,表格類文檔(賬簿)識別突破(Gemini 表現優異)。檔案員杰基?迪恩:“表格處理是關鍵飛躍。”
費城聯邦儲備銀行:用 LLM 提取歷史車輛注冊、房產契約數據,以往成本極高、無法規模化,如今開啟全新經濟研究維度。
Archive Pearl:加拿大開發非營利 AI 工具,支持批量上傳數百頁手寫文檔,幾分鐘生成純凈轉錄,目標推動學術民主化。加州大學圣克魯茲分校歷史學家本杰明?布林(Benjamin Breen):AI 對本科生、家族研究者幫助最大,同時解鎖古拉丁語、古英語等難讀文獻。
四、技術溯源:從楊立昆到現代 AI
Yann LeCun 80 年代研究手寫識別時,神經網絡尚屬小眾,算力、數據均不足。他回憶:“當時對手寫體興趣不大,只是剛好有數據(郵編、人口普查表)。”90 年代初,他提出整行識別 + 語言模型糾錯架構,成為現代手寫識別基礎。
如今Yann LeCun認為手寫識別基本解決,轉向通用人工智能研究;但歷史文獻等復雜場景仍需優化,速度、可靠性持續提升。
五、未來展望:AI 賦能人文研究
漢弗萊斯團隊開發Archive Pearl(測試版),面向全球學者,拖拽上傳、批量轉錄,讓小眾文獻觸手可及。他說:“技術應成為大眾工具,而非少數人的特權。”



評論