从Ruby中的PDF文件中提取表格

Til*_*ilo 5 ruby ruby-on-rails

提取嵌入PDF文档的表的最佳方法是什么?

我不感兴趣的解决方案只适用于JRuby,或者使用第三方API或网站.

你能分享一些关于如何提取表格的Ruby代码吗?哪种宝石最适合这份工作?

我确定有人在遇到同样的问题:)我感谢你的帮助!

Big*_*Ron 1

您可以使用poppler从 pdf 中提取数据。根据您的具体要求,这可能就足够了。

def extract_to_text(pdf_path)
  command = ['pdftotext', Shellwords.escape(pdf_path)].join(' ')
  `#{command}`
end

def extract_to_html(pdf_path)
  command = ['pdftohtml', Shellwords.escape(pdf_path)].join(' ')
  `#{command}`
end
Run Code Online (Sandbox Code Playgroud)

这些命令将分别将 pdf 提取到 html 文件和文本文件,并保存在 pdf 所在的同一位置。

您可以使用自制软件在 Mac 上安装 poppler:

brew install poppler
Run Code Online (Sandbox Code Playgroud)