有时,PDF 是使用实际字体字节和描述字体的 PDF 结构中指定的不同编码生成的。
在这种情况下,文本显示得很好,但可能无法正确提取。我经常在西欧语言中看到这种情况。
为了解决这个问题,Docotic.Pdf 库会自动检测是否更喜欢字体文件编码。
本文展示了不同的 PDF 文本提取选项。
免责声明:我为图书馆的供应商工作。
归档时间: |
|
查看次数: |
2561 次 |
最近记录: |