type
status
date
slug
summary
tags
category
icon
标签
参考标签
在之前的文章里,介绍了一个软件,OCRMyPDF,使用 OCR 技术来识别 PDF 中的文本,并通过向 PDF 中的图像添加文本层,使得扫描的图像 PDF 变得可搜索,并输出 PDF/A 标准的文件。
在上一篇文章中,介绍了 OCRMyPDF 的基本使用方法,这篇文章介绍批量处理多个 PDF 文件的方法。
在软件的官网上,介绍了很多种批量处理的办法,这里介绍一个Windows下最方便使用的批处理文件法。
创建批处理文件
创建一个
.bat
批处理文件,在里面粘贴下面的代码:这段代码具体解释:
for /r %%f in (*.pdf)
:这个部分表示遍历当前目录及子目录中的所有 PDF 文件。%%f
是一个变量,用于表示找到的每一个 PDF 文件的路径。
do ocrmypdf %%f %%f
:这一部分表示对找到的每一个 PDF 文件执行ocrmypdf
命令。ocrmypdf %%f %%f
的意思是将输入 PDF 文件 (%%f
) 作为输入和输出,也就是说输出的同名文件会覆盖原来的文件,所以建议把原文件备份。
-l chi_sim+eng
:这个选项指定 OCR 处理的语言为简体中文(chi_sim
)和英文(eng
)。+
号表示同时使用这两种语言。
-force-ocr
:这个选项表示即使 PDF 已包含文本层,仍然强制执行 OCR 处理。
不想搞的也可以直接下载:
使用方法
首先要确定自己安装了OCRMyPDF,如果还没安装,就按照“‣”里的方法安装软件。然后,把上一步创建的批处理文件放在 PDF 文件所在的文件夹里,双击运行就可以。
注意:
文件路径的所有文件夹和 PDF 的文件名都不能有空格,不然程序运行会出错。比如我的文件夹路径是:
D:\SynologyDrive\2_Area\CGC\Sustainability_Governance_and_Reporting
我的 PDF 文件名全都是:
为了避免出错,我将文件夹和文件名当中的空格全都替换成了下划线。
批量更改文件名可以使用免费软件ReNamer:
- 作者:TZ
- 链接:https://musingpages.com/technology/2024/07/03/batch-ocr-pdf
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章