在使用Quartz尝试从PDF读取注释两天后,我设法完成并发布了我的代码.
现在我想对另一个常见问题做同样的事情:用Quartz搜索PDF文档.与以前相同的情况,这个问题已被多次询问,几乎没有实际答案.所以我首先需要一些指针,因为我自己还没有实现.
我尝试了什么:
我尝试使用CGPDFScannerScan处理TJ和Tj运算符 - 在某些PDF上返回正确的文本,而在其他文档上它返回大多数随机字母.也许它与文本编码有关?
有人指出应该处理文本块(由BT/ET操作符标记),但我仍然没有设法这样做.有人设法从任何PDF中提取文本吗?
之后,通过将所有文本存储在一起NSMutableString并使用rangeOfString(如果有更好的方式请告诉我),搜索应该很容易.
但那么如何突出结果呢?我知道有一些运算符可以找到字形大小,所以我可以根据这些值来计算得到的矩形,但我已经读了几个小时的规格......这是一个臃肿的混乱,我疯了.有实际解释的人吗?
用户Naveen Thunga发现了PDFKitten,"用于从iOS中提取PDF数据的框架".我只是尝试了演示,它似乎像宣传的那样工作.我将用更多的PDF测试它,并很快发布结果.作为旁注,代码对我来说似乎非常好 - 如果你对这些东西是如何工作感兴趣它非常棒.