ham*_*mid 4 pdf text-processing
我使用 .pdf 文件将 PDF 文件转换为 txt 文件pdftotext
。例如,我有一句话“这是对功能相关性的第一次研究”,注意“第一次”中的 f;当我通过 GATE 处理这句话时,我将“?rst”扭曲为“ï¬?rst”。此外,在“蛋白质是从游离转染的 HEK293EBNA 细胞中分离出来的,并通过 a 上的亲和色谱纯化”中,一些包含字符的单词看起来像 f 但它不是 f 也被扭曲了“蛋白质是从游离转染的 hek293ebna 中分离出来的”细胞并通过亲和层析纯化”。
如何pdftotext
以可读编码输出文本?
请注意,在您粘贴的文本中,“first”中的“fi”和“affinity”中的“ffi”是连字(多个字符组合成一个字形)。据推测,pdftotext
将这些连字中的每一个打印为单个字符,您用来阅读文本的工具不支持。
正如超级用户问题所建议的那样,试试这个:
pdftotext -enc ASCII7 input.pdf output.txt
Run Code Online (Sandbox Code Playgroud)
这应该防止pdftotext
逐字打印连字,迫使其将它们扩展为 ASCII 字符。