2025-02-21·6 分钟阅读

如何从 PDF 中提取文字（普通版和扫描版）

两类 PDF 对应两种方案：数字 PDF 直接提取文本，扫描版用 OCR 识别。涵盖浏览器工具、命令行和常见问题处理。

两种 PDF，两种提取方式

在提取文字之前，需要先判断你的 PDF 是哪种类型：

判断方法：试试能不能用鼠标在 PDF 里选中文字。能选中 = 数字 PDF；选不中 = 扫描 PDF。

FileKit PDF 文字提取工具在浏览器内直接提取，输出纯文本，可以按页查看，显示字数统计，方便复制到其他地方使用。

用 Chrome 或 Edge 浏览器打开 PDF，⌘+A（Mac）或 Ctrl+A（Windows）全选，再 ⌘+C / Ctrl+C 复制，粘贴到任何文本编辑器。这是最快的方法，适合偶尔提取少量文字。

# 安装 poppler-utils（macOS）
brew install poppler

# 提取文字
pdftotext 文件.pdf 输出.txt

# 按页分隔提取
pdftotext -f 1 -l 5 文件.pdf 第1到5页.txt

FileKit OCR 文字识别使用本地化部署的 Tesseract 引擎，支持中英文混排识别，文件不上传服务器，识别结果显示置信度。

适合：合同扫描件、证件照、截图文字提取，中英文混排效果好。

把 PDF 页面截图，在微信里长按图片，选“提取文字”—— 这是很多人忽略的快捷方式，识别率相当高，适合提取少量文字。也可以用钉钉、飞书的图片文字识别功能。

Acrobat Pro 的 OCR 功能（工具 → 扫描和 OCR → 识别文字）对中文支持很好，可以直接在 PDF 里生成可搜索的文字层，而不只是提取文字——这样 PDF 就变成了“可搜索的扫描件”，既保留了原始版式，又能 Ctrl+F 搜索。

通常是字体编码问题，中文 PDF 尤其常见。可以试试用 Adobe Reader 打开再复制，或者用 Acrobat 转换为 Word 后提取。