如何从命令行搜索 PDF 文件？

Question

我正在检查论文的参考文献，并想在正文中找到引用某些论文（在参考文献列表中）的位置。是否有支持通过 bash 搜索并提取位置上下文的 PDF 编辑器？我曾尝试将 PDF 转换为文本，但效果不佳。

Answer 1

只是为了添加到上面的答案，特别是您可以使用 xpdf-utils 中名为 pdftotext 的命令行工具，然后使用 grep 搜索由该工具创建的文本文档。

这可能看起来像这样：

pdftotext document.pdf - | grep -C5 -n -i "search term"

手册中有更多信息。pdftotext 的唯一缺点是我们不能同时转换多个文件。这个问题可以用一个小的 bash 脚本来克服：

for f in pdf_directory; do echo $f; pdftotext $f - | grep -i "search_term"; done

如果您在从 pdf 创建文本文档时遇到问题，例如由于不兼容的 pdf 文件，那么这是另一个问题。

我认为一般来说，pdf 编辑器不包含命令行，因为它们是图形化的。如果您想使用 bash（或者可能是 zsh！），那么您可能必须使用终端外壳。

祝你好运！

Answer 2

poppler-utils

注意： xpdf-utils是poppler-utils的过渡包。

您可以使用 poppler-utils。poppler-utils 是一套用于可移植文档格式 (PDF) 文件的工具。

要安装它，您可以使用 Ubuntu 软件中心，或者点击下面的：

pdfgrep可以在目录树中递归搜索 PDF 文件中的字符串或模式，计算匹配项或为每个匹配项打印一些上下文。例如，递归搜索keyword中/some directory，不区分大小写：

pdfgrep -Ri keyword /some/directory

Pdfgrep 是一个在 PDF 文件中搜索文本的工具。它的工作原理类似于“grep”。

特征：

搜索正则表达式。

支持一些重要的 grep 选项，包括： + 文件名输出。+ 页码输出。+ 可选的不区分大小写。+ 计数
出现次数。

以及最重要的功能：彩色输出！

Answer 3

要使用 pdfgrep 在多个 pdf 文件中搜索正则表达式：

find /path -iname '*.pdf' -exec pdfgrep -H 'pattern' {} \;

其中 path 是您的 pdf 文件的位置。