type
status
date
slug
summary
tags
category
icon
标签
参考标签
在之前的文章里,介绍了一个软件,OCRMyPDF,使用 OCR 技术来识别 PDF 中的文本,并通过向 PDF 中的图像添加文本层,使得扫描的图像 PDF 变得可搜索,并输出 PDF/A 标准的文件。
在上一篇文章中,介绍了 OCRMyPDF 的基本使用方法,这篇文章介绍批量处理多个 PDF 文件的方法。
在软件的官网上,介绍了很多种批量处理的办法,这里介绍一个Windows下最方便使用的批处理文件法。

创建批处理文件

创建一个.bat批处理文件,在里面粘贴下面的代码:
这段代码具体解释:
  1. for /r %%f in (*.pdf):这个部分表示遍历当前目录及子目录中的所有 PDF 文件。%%f 是一个变量,用于表示找到的每一个 PDF 文件的路径。
  1. do ocrmypdf %%f %%f:这一部分表示对找到的每一个 PDF 文件执行 ocrmypdf 命令。ocrmypdf %%f %%f 的意思是将输入 PDF 文件 (%%f) 作为输入和输出,也就是说输出的同名文件会覆盖原来的文件,所以建议把原文件备份。
  1. -l chi_sim+eng:这个选项指定 OCR 处理的语言为简体中文(chi_sim)和英文(eng)。+ 号表示同时使用这两种语言。
  1. -force-ocr:这个选项表示即使 PDF 已包含文本层,仍然强制执行 OCR 处理。
不想搞的也可以直接下载:

使用方法

首先要确定自己安装了OCRMyPDF,如果还没安装,就按照“”里的方法安装软件。然后,把上一步创建的批处理文件放在 PDF 文件所在的文件夹里,双击运行就可以。
注意:
文件路径的所有文件夹和 PDF 的文件名都不能有空格,不然程序运行会出错。比如我的文件夹路径是:D:\SynologyDrive\2_Area\CGC\Sustainability_Governance_and_Reporting
我的 PDF 文件名全都是:
notion image
为了避免出错,我将文件夹和文件名当中的空格全都替换成了下划线。
批量更改文件名可以使用免费软件ReNamer:
相关文章
将剑桥英英词典加入Alfred快捷搜索
Lazy loaded image
将Perplexity加入Alfred快捷搜索
Lazy loaded image
NAS需要定时重启吗?
Lazy loaded image
下载 B 站视频的五种方法
Lazy loaded image
B站视频下载神器——哔哩下载姬
Lazy loaded image
将Notion全部笔记导入苹果备忘录
Lazy loaded image
Foot itwampserver设置php上传文件大小
Loading...
TZ
TZ
阅尽千帆终执手,此心安处是吾乡
最新发布
振臂高呼GPT必应
2025-2-3
将剑桥英英词典加入Alfred快捷搜索
2025-2-3
【转载】美国霸权的衰落
2025-2-2
将Perplexity加入Alfred快捷搜索
2025-2-1
五行旺衰
2025-1-30
正视中美差距
2025-1-30
2017-2025TZ.

阅千帆 | 阅尽千帆终执手,此心安处是吾乡

Powered byNotionNext 4.8.3.