是否有一个C++库来从PDF文件中提取PDF文件中的文本？

Question

去年,我使用PDFBox在Java中创建应用程序以获取某些PDF文件中的原始文本,我现在需要将该应用程序移植到C++.

我想知道什么是最好的C++替代方案来完成我需要的东西.

我会给出一个例子,以防它有所帮助:

对于PDFBox,使用该文件,第2页上读取的每一行和第3页的大部分都将输出一行的所有数据,用空格分隔,而不是像现在一样将其保留在网格中.

因此,第2页中的第一个相关行将如下所示:

FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615

或类似的东西,因为它们出现的顺序有微小的变化,但我不关心这一点,只要类似的行输出相同,因为我只是解析它们并将我需要的值放在不同的变量中.

所以,了解所有这些,是否有一个库可以在C++程序中使用以获得类似的结果？

编辑:在http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file查看sacredFaith的链接并尝试之后,我得到了一个奇怪的输出像我之前提到的示例文件一样:

我实际需要的部分在开头是奇怪的字符.使用Adobe Acrobat Reader X并使用另存为...文本(可访问),我得到以下结果:

这与我在Java中使用PDFBox以及我想在C++中输出的内容大致相同.

Answer 1

Xpdf是一个C++应用程序/库,包含从PDF文件中提取纯文本的工具.

我刚下载了Xpdf的预编译版本,命令行中的.exe工作得很好,我得到了我想要的输出(如果我使用-layout选项,甚至比使用PDFBox更好).我有一个问题,但是......有没有一个地方我可以看到如何在代码中调用方法而不是使用.exe？我会自己看看,但既然你似乎熟悉图书馆,那么如果你能告诉我从哪里开始寻找会更好.非常感谢! (5认同)