Windows下使用OCRMyPDF批量识别扫描版PDF文字

icon

网址

type

status

date

slug

summary

category

在之前的文章里，介绍了一个软件，OCRMyPDF，使用 OCR 技术来识别 PDF 中的文本，并通过向 PDF 中的图像添加文本层，使得扫描的图像 PDF 变得可搜索，并输出 PDF/A 标准的文件。

在上一篇文章中，介绍了 OCRMyPDF 的基本使用方法，这篇文章介绍批量处理多个 PDF 文件的方法。

在软件的官网上，介绍了很多种批量处理的办法，这里介绍一个Windows下最方便使用的批处理文件法。

创建一个.bat批处理文件，在里面粘贴下面的代码：

这段代码具体解释：

for /r %%f in (*.pdf)：这个部分表示遍历当前目录及子目录中的所有 PDF 文件。%%f 是一个变量，用于表示找到的每一个 PDF 文件的路径。

do ocrmypdf %%f %%f：这一部分表示对找到的每一个 PDF 文件执行 ocrmypdf 命令。ocrmypdf %%f %%f 的意思是将输入 PDF 文件 (%%f) 作为输入和输出，也就是说输出的同名文件会覆盖原来的文件，所以建议把原文件备份。

不想搞的也可以直接下载：

首先要确定自己安装了OCRMyPDF，如果还没安装，就按这一篇文章里的方法安装软件。然后，把上一步创建的批处理文件放在 PDF 文件所在的文件夹里，双击运行就可以。

注意：

文件路径的所有文件夹和 PDF 的文件名都不能有空格，不然程序运行会出错。比如我的文件夹路径是：D:\SynologyDrive\2_Area\CGC\Sustainability_Governance_and_Reporting

我的 PDF 文件名全都是：

为了避免出错，我将文件夹和文件名当中的空格全都替换成了下划线。

批量更改文件名可以使用免费软件ReNamer：