在 Linux 上 - 如何从.pdf真正是文本而不是扫描图像的文本中提取文本?我想要一些我可以在命令行/脚本中使用的东西,而不是交互式的。(我不想转换.tif和使用 OCR - 文件中已经有文本可用.pdf,那么为什么要引入不完美的 OCR 的不准确之处呢?)
.pdf
.tif
linux script pdf export
export ×1
linux ×1
pdf ×1
script ×1