OCRFlux:開源 PDF/圖片轉 Markdown 工具,幫助簡單且精準還原文件內容與結構

當今處理 PDF 檔案或掃描影像時,如何快速且準確地轉換為可編輯的純文字格式,始終是文件數位化的重要課題。OCRFlux 正是一款針對這個需求而誕生的開源工具,其結合輕量化的多模態語言模型(僅 3B 參數),可有效將複雜版面的 PDF 或圖片內容轉換為乾淨、結構清晰的 Markdown 文件。無論是跨頁段落、嵌入表格、多欄排版或中英文混合排版,OCRFlux 都能精準辨識並保留原始格式的邏輯結構,讓使用者更容易進行後續編輯、分析或自動化處理。

特色亮點

1. 支援複雜版面解析

  • 能夠自動識別並解析多欄排版、圖片內文、附註、頁首頁尾等元素。

  • 對混合中英文、方程式、內嵌表格都能維持乾淨的 Markdown 排版

2. 首創跨頁內容整合

  • OCRFlux 是首款開源工具能夠識別同一內容橫跨多頁的段落或表格,進行合併整合,避免連續內容斷裂

  • Benchmark 結果顯示合併段落與表格的準確率高達 98.3%,TEDS 分數平均達 0.95

3. 高效率/低資源部署

  • 使用只有 3B 參數的模型,可執行於 GTX 3090 顯卡,較許多 7B 模型推論速度快 3 倍,成本與能耗大幅降低

  • 包含完整 pipeline、Docker 發行版、示範範例與基準測試資料,方便快速上手。

4. 優於傳統 OCR 的解析品質

  • 在 OCRFlux-bench-single 基準上,英文 EDS 提升了約 0.095(從 0.872 ➝ 0.967),中文同樣約 0.103(從 0.859 ➝ 0.962),總體提升超過 0.187

  • 表格的 TEDS 分數也比 olmOCR、Nanonets、MonkeyOCR 等工具高出 0.03 至 0.08 以上

整體來說,OCRFlux 提供了一種清晰、乾淨、高效的 PDF/影像轉 Markdown 解決方案。相較於傳統 OCR 或其他 LLM-based 工具,它在複雜版面與跨頁內容整合方面表現尤為突出,不僅解析準確性高、部署門檻低,還能靈活應用於各種自動化流程中。對於重度文件處理需求的使用者或團隊,是一個值得一試的開源利器。

 

課程推薦

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

利用 AI 提升網站設計效率與 SEO 排名!了解如何透過 ChatGPT 等工具快速建立 HTML 架構,優化關鍵字與用戶體驗,讓網站更具競爭力。

輸入折扣碼 TC1533SL 還可以額外獲得 NT$500 優惠喔。

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

《PChome雜誌》攜手 5 位在 AI 領域的專業講師,打造上述 6 堂實用課程,教你學會時下最好用的 AI 工具,導入生成式 AI 來產製工作內容,改造並升級你的工作流程。

輸入折扣碼 ZERO2024 還可以額外獲得 NT$400 優惠喔。

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

本課程專為希望深入了解 HTML 並有效結合 SEO 策略的學員設計。我們將重點放在 HTML 的深度學習與應用上,同時穿插介紹如何透過搜索引擎優化提升網站能見度。透過即時互動式的直播教學,加上 ChatGPT 的輔助,您將學習到如何建立一個結構優良、美觀且符合 SEO 標準的網站。這不僅會提升網站的用戶體驗,還會大幅提高網站的搜索引擎排名,進而增加訪客流量和潛在客戶。
用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

在快速變遷的職場中,提升競爭力成為關鍵。透過引領潮流的AI技術,ChatGPT和Midjourney將助您勇攀高峰。無論您是AI新手還是專家,這個課程將引導您從入門到精通,解密AI的奧秘,並學習如何運用於職場。
GitHub Copilot AI 程式碼編輯工具應用實務班

GitHub Copilot AI 程式碼編輯工具應用實務班

讓學員瞭解有效地使用該工具來加速開發流程、提高程式碼品質和生產力。課程重點放在以 JavaScript 程式語言為例,介紹 Copilot 的基本原理、使用方法和最佳實踐。

輸入折扣碼 TC1456JA 還可以額外獲得 NT$500 優惠喔。

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

掌握Clipchamp AI的操作技巧,靈活運用Clipchamp AI進行影片編輯和創作,實現創意表達和傳播目的。

輸入折扣碼 TC1451JAN 還可以額外獲得 NT$500 優惠喔。

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

Looker Studio除了可協助使用者監控網站流量、廣告成效、選擇匯入資源的管道之外,還可以將數據資料多平台整合、數據報表即時更新、數據範本可重複套用的效益,透過自動化系統,將數據全部匯入同一個報表平台,是企業不可或缺的重要工具。

輸入折扣碼 TC1270JIA 還可以額外獲得 NT$500 優惠喔。

和我們交流

加入我們的社群,裡面會有一些技術的內容、有趣的技術梗,以及職缺的分享,歡迎和我們一起討論。