我想要一个python函数,它接受pdf并返回文档中注释注释的文本列表.我看过python-poppler(https://code.launchpad.net/~poppler-python/poppler-python/trunk),但我无法弄清楚如何让它给我任何有用的东西.
我找到了get_annot_mapping方法并修改了提供的演示程序来调用它self.current_page.get_annot_mapping(),但我不知道如何处理AnnotMapping对象.它似乎没有完全实现,只提供复制方法.
如果有任何其他库提供此功能,那也没关系.
我想编写一个小脚本(将在无头Linux服务器上运行)来读取PDF,突出显示与我传递的字符串数组中的任何内容匹配的文本,然后保存修改后的PDF.我想我最终会使用类似python绑定到poppler的东西,但不幸的是,接下来只有零文档,我接下来没有python的零经验.
如果有人能指出我的教程,示例或一些有用的文档,让我开始,将不胜感激!
我想尝试从pdf中提取突出显示的文本,所以我开始查看pdfminer但找不到此特定函数的任何文档.
这有可能吗?