Dav*_*vid 31 command-line bash pdf search pdfgrep
我正在检查论文的参考文献,并想在正文中找到引用某些论文(在参考文献列表中)的位置。是否有支持通过 bash 搜索并提取位置上下文的 PDF 编辑器?我曾尝试将 PDF 转换为文本,但效果不佳。
小智 25
只是为了添加到上面的答案,特别是您可以使用 xpdf-utils 中名为 pdftotext 的命令行工具,然后使用 grep 搜索由该工具创建的文本文档。
这可能看起来像这样:
pdftotext document.pdf - | grep -C5 -n -i "search term"
Run Code Online (Sandbox Code Playgroud)
手册中有更多信息。pdftotext 的唯一缺点是我们不能同时转换多个文件。这个问题可以用一个小的 bash 脚本来克服:
for f in pdf_directory; do echo $f; pdftotext $f - | grep -i "search_term"; done
Run Code Online (Sandbox Code Playgroud)
如果您在从 pdf 创建文本文档时遇到问题,例如由于不兼容的 pdf 文件,那么这是另一个问题。
我认为一般来说,pdf 编辑器不包含命令行,因为它们是图形化的。如果您想使用 bash(或者可能是 zsh!),那么您可能必须使用终端外壳。
祝你好运!
Mit*_*tch 23
注意: xpdf-utils是poppler-utils的过渡包。
您可以使用 poppler-utils。poppler-utils 是一套用于可移植文档格式 (PDF) 文件的工具。
要安装它,您可以使用 Ubuntu 软件中心,或者点击下面的:
pdfgrep
可以在目录树中递归搜索 PDF 文件中的字符串或模式,计算匹配项或为每个匹配项打印一些上下文。例如,递归搜索keyword
中/some directory
,不区分大小写:
pdfgrep -Ri keyword /some/directory
Run Code Online (Sandbox Code Playgroud)
Pdfgrep 是一个在 PDF 文件中搜索文本的工具。它的工作原理类似于“grep”。
特征:
- 搜索正则表达式。
- 支持一些重要的 grep 选项,包括: + 文件名输出。+ 页码输出。+ 可选的不区分大小写。+ 计数
出现次数。- 以及最重要的功能:彩色输出!
1来源: Ubuntu 应用程序目录
要使用 pdfgrep 在多个 pdf 文件中搜索正则表达式:
find /path -iname '*.pdf' -exec pdfgrep -H 'pattern' {} \;
其中 path 是您的 pdf 文件的位置。
归档时间: |
|
查看次数: |
19977 次 |
最近记录: |