點擊以上傳或拖曳檔案
格式: JPG, JPEG, PNG, GIF, WEBP
大小: 最多 10MB,最大解析度:4096×4096
正在上傳:demo2.wav
檔案大小:295.54 KB
正在上傳至伺服器…
demo2.wav
檔案大小:295.54 KB
✓ 上傳成功
確定要登出嗎?
不再手動輸入!掃描件、螢幕截圖、PDF 一鍵轉成可編輯、可搜尋文字——採用 2D 光學映射 AI。
點擊以上傳或拖曳檔案
格式: JPG, JPEG, PNG, GIF, WEBP
大小: 最多 10MB,最大解析度:4096×4096
正在上傳:demo2.wav
檔案大小:295.54 KB
正在上傳至伺服器…
demo2.wav
檔案大小:295.54 KB
✓ 上傳成功
DeepSeek AI 發布了 DeepSeek-OCR,一種透過光學二維映射壓縮長語境的劃時代方法。此創新系統證明,基於視覺的壓縮在處理高文字密度文件時可達成卓越效率,潛在地改變大型語言模型(LLM)處理海量文本資訊的方式。
DeepSeek-OCR 由兩個主要組件構成:DeepEncoder 與作為解碼器的 DeepSeek3B-MoE-A570M。兩者協同可在低於 10× 的壓縮比例下(即 10 個文字 token 壓縮為 1 個視覺 token)達成 97% OCR 精準度;即便在 20× 的激進壓縮比例,系統仍可維持約 60% 的準確率。
DeepSeek-OCR 的核心創新在於能夠大幅壓縮文字資訊,同時維持相當高的準確度:
這些結果顯示,輕量語言模型亦能有效解碼壓縮後的視覺表示,意味著更大的 LLM 可透過合適的預訓練設計輕鬆習得類似能力。
DeepEncoder 是一種全新架構,即使在高解析度輸入下也能維持低啟用記憶與較少的視覺 token。其關鍵特性包括:
在 OmniDocBench 基準上,DeepSeek-OCR 展現出卓越效率:
DeepSeek-OCR 展現出卓越的實際應用效能,能夠以前所未有的規模為大型語言模型(LLM)和視覺語言模型(VLM)生成訓練資料:
目前的開源視覺語言模型(VLM)採用三種主要類型的視覺編碼器,各自具有不同的優勢和限制:
DeepEncoder 透過結合各種方法的最佳特性,同時最小化其缺點,在記憶體效率、token 數量和處理能力之間達成平衡,解決了這些限制。
DeepEncoder 設計為高效支援多種解析度,使其能夠處理不同大小和複雜度的文件,而不會犧牲效能或需要過多的計算資源。
解碼器組件使用 DeepSeek3B-MoE-A570M,這是一種混合專家架構,在維持高準確度的同時提供高效推理。此設計使模型能夠專精於 OCR 任務的不同方面,同時在專家之間共享知識。
發現更多有用的AI工具來提高您的生產力