如何让`pdftotext`以可读编码输出文本?

ham*_*mid 4 pdf text-processing

我使用 .pdf 文件将 PDF 文件转换为 txt 文件pdftotext。例如,我有一句话“这是对功能相关性的第一次研究”,注意“第一次”中的 f;当我通过 GATE 处理这句话时,我将“?rst”扭曲为“ï¬?rst”。此外,在“蛋白质是从游离转染的 HEK293EBNA 细胞中分离出来的,并通过 a 上的亲和色谱纯化”中,一些包含字符的单词看起来像 f 但它不是 f 也被扭曲了“蛋白质是从游离转染的 hek293ebna 中分离出来的”细胞并通过亲和层析纯化”。

如何pdftotext以可读编码输出文本?

dha*_*hag 5

请注意,在您粘贴的文本中,“first”中的“fi”和“affinity”中的“ffi”是连字(多个字符组合成一个字形)。据推测,pdftotext将这些连字中的每一个打印为单个字符,您用来阅读文本的工具不支持。

正如超级用户问题所建议的那样,试试这个:

pdftotext -enc ASCII7 input.pdf output.txt
Run Code Online (Sandbox Code Playgroud)

这应该防止pdftotext逐字打印连字,迫使其将它们扩展为 ASCII 字符。