FileKit
返回博客
·6 分钟阅读

如何从 PDF 中提取文字(普通版和扫描版)

两类 PDF 对应两种方案:数字 PDF 直接提取文本,扫描版用 OCR 识别。涵盖浏览器工具、命令行和常见问题处理。

两种 PDF,两种提取方式

在提取文字之前,需要先判断你的 PDF 是哪种类型:

  • 数字 PDF:从 Word、WPS、网页等导出的 PDF,文字是“真实文字”, 可以选中、复制。这类 PDF 提取文字很简单,速度快,准确率 100%。
  • 扫描 PDF:用复印机扫描的纸质文件、拍照转 PDF 的文档, 实际上只是图片的集合,没有可识别的文字层。需要用 OCR(光学字符识别)技术才能提取。

判断方法:试试能不能用鼠标在 PDF 里选中文字。能选中 = 数字 PDF;选不中 = 扫描 PDF。

数字 PDF 提取文字

方法一:浏览器工具

FileKit PDF 文字提取工具在浏览器内直接提取,输出纯文本,可以按页查看, 显示字数统计,方便复制到其他地方使用。

方法二:直接复制粘贴

用 Chrome 或 Edge 浏览器打开 PDF,⌘+A(Mac)或 Ctrl+A(Windows)全选, 再 ⌘+C / Ctrl+C 复制,粘贴到任何文本编辑器。 这是最快的方法,适合偶尔提取少量文字。

方法三:命令行(pdftotext)

# 安装 poppler-utils(macOS)
brew install poppler

# 提取文字
pdftotext 文件.pdf 输出.txt

# 按页分隔提取
pdftotext -f 1 -l 5 文件.pdf 第1到5页.txt

扫描 PDF 提取文字(OCR)

方法一:FileKit OCR 工具

FileKit OCR 文字识别使用本地化部署的 Tesseract 引擎,支持中英文混排识别, 文件不上传服务器,识别结果显示置信度。

适合:合同扫描件、证件照、截图文字提取,中英文混排效果好。

方法二:微信文字识别(快捷方案)

把 PDF 页面截图,在微信里长按图片,选“提取文字”—— 这是很多人忽略的快捷方式,识别率相当高,适合提取少量文字。 也可以用钉钉、飞书的图片文字识别功能。

方法三:Adobe Acrobat OCR

Acrobat Pro 的 OCR 功能(工具 → 扫描和 OCR → 识别文字) 对中文支持很好,可以直接在 PDF 里生成可搜索的文字层, 而不只是提取文字——这样 PDF 就变成了“可搜索的扫描件”, 既保留了原始版式,又能 Ctrl+F 搜索。

提取效果差怎么办?

数字 PDF 提取结果乱码

通常是字体编码问题,中文 PDF 尤其常见。 可以试试用 Adobe Reader 打开再复制,或者用 Acrobat 转换为 Word 后提取。

OCR 识别率低

  • 图片分辨率不足——扫描件建议至少 300 DPI,手机拍照建议在光线好的环境下拍, 保持文字清晰不倾斜
  • 字体特殊——手写体、艺术字、印章文字识别率普遍较低
  • 背景干扰——有底色纹理的文件识别率会下降,可以先用图片处理工具提高对比度

提取文字的注意事项

  • OCR 提取的文字不一定 100% 准确,重要内容(数字、专有名词)需要人工核对
  • 表格数据提取后通常会丢失列对齐,需要在文本编辑器里重新整理, 或直接用 PDF 转 Excel 的专用工具
  • 受版权保护的 PDF 可能禁止文字提取(解锁后再尝试)