如何使用java或C#解析包含utf-8字符的pdf文件

kat*_*tsu 6 c# java pdf parsing

我有一个pdf文件,其中包含utf-8字符(İ,ğ,ı和阿拉伯字母等).如何解析这个文件?
我使用itext和pdfBox,但我看到"çekti¤ikå¤> da"而不是"çektiğikağıda".我该如何解决这个问题?

Bob*_*sky 0

有时,PDF 是使用实际字体字节和描述字体的 PDF 结构中指定的不同编码生成的。

在这种情况下,文本显示得很好,但可能无法正确提取。我经常在西欧语言中看到这种情况。

为了解决这个问题,Docotic.Pdf 库会自动检测是否更喜欢字体文件编码。

本文展示了不同的 PDF 文本提取选项

免责声明:我为图书馆的供应商工作。