处理Apache Tika中的连字

Spa*_*on_ 6 java pdf character-encoding ligature apache-tika

Tika似乎不识别PDF文件中的连字(fi,ff,fl ...)并用问号替换它们.

有什么想法(不仅在Tika上)提取PDF文本,同时将字符连字转换为分离的字符？

File file = new File("path/to/file.pdf");
String text = Tika().parseToString(file);

Run Code Online (Sandbox Code Playgroud)

编辑

我的PDF文件是UTF-8编码(就是说的InputStream.getEncoding()),我的平台编码也是UTF-8.即使有了-Dfile.encoding=UTF8,它也无法正常工作.

例如,我应该有:"différentesimplémentations"......这就是我真正得到的:"di erentesimpl ementations"

归档时间：	12 年前
查看次数：	324 次
最近记录：	11 年，12 月前

无论显示器分辨率如何,如何将JFrame设置为居中显示？ 188

Java中的动态和静态多态有什么区别？ 108

如何防止java.lang.NumberFormatException:对于输入字符串:"N/A"？ 65

创建对象的Arraylist 47

Unicode代码点限制 13

每种语言版本的Windows的默认代码页 5

在 Web 服务器上动态编译 Latex 的安全问题 5

Spire.PDF将二进制PDF数据加载到PdfDocument中 5

将特殊字符转换为HTML实体 2

pdf2image如何使用“启用所有功能”阅读pdf-Windows 1

仅存储使用Git更改的多个文件中的一个文件？ 2895

如何检查对象是否是数组？ 2581

如何使用scp将文件夹从远程复制到本地？ 2562

樱桃挑选Git意味着什么？ 2117

如何显示已上演的更改？ 2034

Facebook如何禁用浏览器的集成开发人员工具？ 1652

如何恢复Git中丢失的存储？ 1617

命令折叠代码的所有部分？ 1576

为什么在重写Equals方法时重写GetHashCode很重要？ 1371

将零填充到字符串的最好方法 1309