如何从pdf中提取文本图层和背景图层？

Question

在我的项目中,我要用HTML5/CSS3做一个PDF查看器,应用程序必须允许用户添加注释和注释.实际上,我要做一些与crocodoc.com非常相似的事情.

一开始我正在考虑从PDF创建图像,并允许用户创建区域并将评论关联到此区域.不幸的是,客户还希望在此PDF中导航并仅添加对允许的部分的注释(例如,段落或选定的文本).

而现在我面临的一个问题是获取文本和最佳方法.如果有任何身体有一些线索我怎么能达到它,我将不胜感激.

我尝试了pdftohtml,但输出看起来不像真正复杂的原始文件(文件的例子).即使这个也没有真正反映出产量,但要好得多pdftohtml.

我对任何解决方案持开放态度,优先选择linux下的命令行.

Answer 1

这是您想要完成的一项艰巨的任务。

要从 PDF 中读取文本，请查看PEAR 的 PDF_Reader提案代码。