我使用 .pdf 文件将 PDF 文件转换为 txt 文件pdftotext
。例如,我有一句话“这是对功能相关性的第一次研究”,注意“第一次”中的 f;当我通过 GATE 处理这句话时,我将“?rst”扭曲为“ï¬?rst”。此外,在“蛋白质是从游离转染的 HEK293EBNA 细胞中分离出来的,并通过 a 上的亲和色谱纯化”中,一些包含字符的单词看起来像 f 但它不是 f 也被扭曲了“蛋白质是从游离转染的 hek293ebna 中分离出来的”细胞并通过亲和层析纯化”。
如何pdftotext
以可读编码输出文本?