免費 DeepSeek‑OCR 線上工具:從任何圖片精準擷取文字(97%準確率)

不再手動輸入!掃描件、螢幕截圖、PDF 一鍵轉成可編輯、可搜尋文字——採用 2D 光學映射 AI。

點擊以上傳或拖曳檔案

格式: JPG, JPEG, PNG, GIF, WEBP

大小: 最多 10MB,最大解析度:4096×4096

OCR 任務類型

摘要:語境壓縮的新範式

DeepSeek AI 發布了 DeepSeek-OCR,一種透過光學二維映射壓縮長語境的劃時代方法。此創新系統證明,基於視覺的壓縮在處理高文字密度文件時可達成卓越效率,潛在地改變大型語言模型(LLM)處理海量文本資訊的方式。

DeepSeek-OCR 由兩個主要組件構成:DeepEncoder 與作為解碼器的 DeepSeek3B-MoE-A570M。兩者協同可在低於 10× 的壓縮比例下(即 10 個文字 token 壓縮為 1 個視覺 token)達成 97% OCR 精準度;即便在 20× 的激進壓縮比例,系統仍可維持約 60% 的準確率。

DeepSeek-OCR 的顛覆性在哪裡?

1. 極高壓縮比與高準確度

DeepSeek-OCR 的核心創新在於能夠大幅壓縮文字資訊,同時維持相當高的準確度:

  • 在 9–10× 壓縮比下,OCR 精準度 96%+
  • 在 10–12× 壓縮比下,準確度約 90%
  • 在 20× 壓縮比下,準確度約 60%

這些結果顯示,輕量語言模型亦能有效解碼壓縮後的視覺表示,意味著更大的 LLM 可透過合適的預訓練設計輕鬆習得類似能力。

2. DeepEncoder:低啟用記憶、高效率

DeepEncoder 是一種全新架構,即使在高解析度輸入下也能維持低啟用記憶與較少的視覺 token。其關鍵特性包括:

  • 以序列連接方式結合視窗注意力與全域注意力的編碼元件
  • 16× 卷積壓縮器,在進入密集的全域注意力之前先縮減視覺 token
  • 可處理大型圖片而不致造成 GPU 記憶體溢出
  • 有效的記憶體與 token 壓縮以達到最佳效能

3. 以最少 token 達成 SOTA 表現

OmniDocBench 基準上,DeepSeek-OCR 展現出卓越效率:

  • 僅使用 100 個視覺 token,便超越 GOT-OCR2.0(每頁使用 256 token)
  • 在少於 800 個視覺 token 的情況下,表現優於 MinerU2.0(每頁平均 6000+ token)
  • 在端到端模型中以最少的視覺 token 取得 SOTA 表現

4. 大規模生產擴展性

DeepSeek-OCR 展現出卓越的實際應用效能,能夠以前所未有的規模為大型語言模型(LLM)和視覺語言模型(VLM)生成訓練資料:

  • 單一 A100-40G GPU 每日可處理 200,000+ 頁面
  • 使用 20 個節點(160 個 A100-40G GPU)每日可處理 3,300 萬頁面
  • 適用於大規模文件處理任務的實際部署

DeepSeek-OCR 背後的技術架構

視覺編碼器比較

目前的開源視覺語言模型(VLM)採用三種主要類型的視覺編碼器,各自具有不同的優勢和限制:

  • 雙塔架構(例如 Vary):提供可控制的參數,但需要複雜的雙重圖像預處理
  • 基於瓦片的方法(例如 InternVL2.0):減少啟用記憶體,但可能導致過度分割和大量視覺 token
  • 自適應解析度編碼(例如 Qwen2-VL):靈活處理多種解析度,但面臨大量啟用記憶體消耗的挑戰

DeepEncoder 透過結合各種方法的最佳特性,同時最小化其缺點,在記憶體效率、token 數量和處理能力之間達成平衡,解決了這些限制。

多解析度支援

DeepEncoder 設計為高效支援多種解析度,使其能夠處理不同大小和複雜度的文件,而不會犧牲效能或需要過多的計算資源。

MoE 解碼器架構

解碼器組件使用 DeepSeek3B-MoE-A570M,這是一種混合專家架構,在維持高準確度的同時提供高效推理。此設計使模型能夠專精於 OCR 任務的不同方面,同時在專家之間共享知識。

推薦的AI工具

發現更多有用的AI工具來提高您的生產力

文字轉語音

使用AI語音將文字轉換為自然聽起來的語音。提供多種語言和語音選項。

文字轉語音 ai語音

AI平頭濾鏡

使用AI看看您留平頭的樣子。在剪髮前預覽短髮款式。

平頭 頭髮濾鏡

AI照片換臉

使用AI技術在照片中交換臉部。只需點擊幾下即可創建有趣且逼真的換臉效果。

換臉 照片編輯
瀏覽更多工具