Ruby on Rails有什么好的PDF到HTML转换器?

mar*_*cgg 13 html ruby pdf ruby-on-rails pdf-to-html

我正在尝试以编程方式将PDF转换为HTML.到目前为止,我一直在使用pdftohtml,但我们的用户对结果不满意.

这就是我需要的:

  • 我正在使用Ruby on Rails,但是任何在Unix上工作的工具都可以工作,因为我可以从命令行调用它.但当然一个漂亮的宝石或插件将是完美的.

  • 我更喜欢它是开源的

  • 它需要能够处理图像

  • 如果有需要可以丢弃图像,那将是很好的

  • 它需要稳定

  • 它需要返回一个接近原始pdf布局的html(我已经尝试过pdftohtml,结果在很多情况下效果都不好)

bta*_*bta 11

以下是pdftohtml/xpdf的几个替代方案:

  • Adobe提供免费的在线PDF到HTML或文本转换服务.获取文档可能需要一两分钟,但我怀疑此选项会给您带来最好的结果.
  • 有一个pdf-reader ruby gem,可以访问PDF文件的内部.这将涉及您的一些开发/扩展,但您可以使用它来解析PDF文件并生成漂亮的HTML.如果您知道用户提前转换的文件类型(例如,如果他们使用标准化表单),这可能比听起来更容易.
  • 如果您使用ghostscript(此处找到gem)将PDF转换为另一种格式,则可能有更多选项.gem可以从PDF文件生成图像(png,jpg等),但是你可能最好将它转换成PostScript文件,因为似乎有很多"PostScript-to- [insert format here"转换器.


ami*_*ena 5

对于PDF到HTML的转换,pdf2htmlEX似乎是一个非常好的工具(查看所有示例/示例):

https://github.com/coolwanglu/pdf2htmlEX