如何使用java或C#解析包含utf-8字符的pdf文件

Question

我有一个pdf文件,其中包含utf-8字符(İ,ğ,ı和阿拉伯字母等).如何解析这个文件？
我使用itext和pdfBox,但我看到"çekti¤ikå¤> da"而不是"çektiğikağıda".我该如何解决这个问题？

Answer 1

有时，PDF 是使用实际字体字节和描述字体的 PDF 结构中指定的不同编码生成的。

在这种情况下，文本显示得很好，但可能无法正确提取。我经常在西欧语言中看到这种情况。

为了解决这个问题，Docotic.Pdf 库会自动检测是否更喜欢字体文件编码。

免责声明：我为图书馆的供应商工作。