fra*_*ous 12
伊格纳西奥的回答很好。事实上,这将是我名单上的第一件事。好吧,这也许是为了建议pdftohtmlpoppler 附带的工具,如果您想尝试将文本重新组合为段落等,请与pdfreflow结合使用(当然,这将为您提供 HTML 输出,但将 HTML 转换为纯文本可以可以通过多种方式完成。)
这里还有一些其他选择。
ebook-convert来自Calibre的命令行工具,可以将 .PDF 转换为纯文本(或 RTF 或多种电子书格式,如 ePub 等)
pdftxtextract来自波多福
可以从命令行调用Abiword以在它可以输入/导出到的任何格式之间进行转换,并且使用适当的导入插件,这包括 PDF:
abiword --to=txt file.pdf
(公平地说,我认为 AbiWord 和 calibre 都使用 poppler 库,但我并不乐观。)