M_1*_*100 5 pdf character-encoding
我有阿拉伯语PDF文件,似乎它的编码有问题.
当我尝试在PDF中搜索其中的单词时,它没有找到结果
当我尝试使用其他程序将pdf内容导出到Excel时,它会以奇怪的编码方式导出数据
当我将PDF中的数据复制到记事本时,记事本会显示奇怪的编码.
我正在开发将使用这些PDF(大约950文件)的解决方案,所以我必须找到一种方法来修复编码.
提前致谢
免责声明:我从未编辑过阿拉伯文件。
如何将 .pdf 内容导出到 Excel?
您无法使用 Word/Excel/Wordpad 或记事本直接打开 .pdf 文件,您看到的奇怪编码很可能是所选字体资源的特定编码。
您可以使用这个 工具 来检测编码
但我真的建议你阅读有关 Unicode 和字符集的最低限度的内容
从那时起,考虑到涉及的文件量,一个好的解决方案似乎是 PyODConverter
对于少量文件, 免费 PDF 到 Word 转换器将满足您的需求:
归档时间: |
|
查看次数: |
9288 次 |
最近记录: |