當今處理 PDF 檔案或掃描影像時,如何快速且準確地轉換為可編輯的純文字格式,始終是文件數位化的重要課題。OCRFlux 正是一款針對這個需求而誕生的開源工具,其結合輕量化的多模態語言模型(僅 3B 參數),可有效將複雜版面的 PDF 或圖片內容轉換為乾淨、結構清晰的 Markdown 文件。無論是跨頁段落、嵌入表格、多欄排版或中英文混合排版,OCRFlux 都能精準辨識並保留原始格式的邏輯結構,讓使用者更容易進行後續編輯、分析或自動化處理。
特色亮點
1. 支援複雜版面解析
-
能夠自動識別並解析多欄排版、圖片內文、附註、頁首頁尾等元素。
-
對混合中英文、方程式、內嵌表格都能維持乾淨的 Markdown 排版。
2. 首創跨頁內容整合
-
OCRFlux 是首款開源工具能夠識別同一內容橫跨多頁的段落或表格,進行合併整合,避免連續內容斷裂。
-
Benchmark 結果顯示合併段落與表格的準確率高達 98.3%,TEDS 分數平均達 0.95。
3. 高效率/低資源部署
-
使用只有 3B 參數的模型,可執行於 GTX 3090 顯卡,較許多 7B 模型推論速度快 3 倍,成本與能耗大幅降低。
-
包含完整 pipeline、Docker 發行版、示範範例與基準測試資料,方便快速上手。
4. 優於傳統 OCR 的解析品質
-
在 OCRFlux-bench-single 基準上,英文 EDS 提升了約 0.095(從 0.872 ➝ 0.967),中文同樣約 0.103(從 0.859 ➝ 0.962),總體提升超過 0.187。
-
表格的 TEDS 分數也比 olmOCR、Nanonets、MonkeyOCR 等工具高出 0.03 至 0.08 以上。
整體來說,OCRFlux 提供了一種清晰、乾淨、高效的 PDF/影像轉 Markdown 解決方案。相較於傳統 OCR 或其他 LLM-based 工具,它在複雜版面與跨頁內容整合方面表現尤為突出,不僅解析準確性高、部署門檻低,還能靈活應用於各種自動化流程中。對於重度文件處理需求的使用者或團隊,是一個值得一試的開源利器。