我在使用pdfbox阅读pdf时遇到了问题.我的实际pdf是部分不可读的,所以当我在编辑器中复制并粘贴不可读的部分时,它会显示小盒符号,但当我尝试通过pdfbox读取相同的文件时,这些字符不会被读取(我不指望它们待读).我期望的是,我至少得到一些符号或一些随机字符而不是实际字符.有没有办法做到这一点.该行已被选中,因此它不是图像.有没有人找到任何解决方法?
有一个pdfbox示例,我们覆盖pdfTextStripper类下的writeString方法以获得一些额外的字体属性.我正在使用该方法来获取我的文本和一些字体属性.所以我的问题是为什么pdfbox不会读取每个字符(它可能会打印出乱码).但就我而言,我算了一下.调用该方法的次数(每个方法调用对应于每个字符)并看到没有.方法调用确实与输出文本中的no.of字符匹配,但与总数没有匹配.pdf中的字符.这是一个示例pdf,单词"Profit"是不可读的,pdf甚至不显示这个单词的乱码,它只是完全跳过它.这是链接. https://drive.google.com/file/d/0B_Ke2amBgdpedUNwVTR3RVlRTFE/view?usp=sharing