从Ruby中的PDF文件中提取表格

Question

从Ruby中的PDF文件中提取表格

Til*_*ilo 5 ruby ruby-on-rails

提取嵌入PDF文档的表的最佳方法是什么？

我不感兴趣的解决方案只适用于JRuby,或者使用第三方API或网站.

你能分享一些关于如何提取表格的Ruby代码吗？哪种宝石最适合这份工作？

我确定有人在遇到同样的问题:)我感谢你的帮助!

Answer 1

Big*_*Ron 1

您可以使用poppler从 pdf 中提取数据。根据您的具体要求，这可能就足够了。

def extract_to_text(pdf_path)
  command = ['pdftotext', Shellwords.escape(pdf_path)].join(' ')
  `#{command}`
end

def extract_to_html(pdf_path)
  command = ['pdftohtml', Shellwords.escape(pdf_path)].join(' ')
  `#{command}`
end

Run Code Online (Sandbox Code Playgroud)

这些命令将分别将 pdf 提取到 html 文件和文本文件，并保存在 pdf 所在的同一位置。

您可以使用自制软件在 Mac 上安装 poppler：

brew install poppler

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，3 月前
查看次数：	1568 次
最近记录：	9 年，3 月前