Til*_*ilo 5 ruby ruby-on-rails
提取嵌入PDF文档的表的最佳方法是什么?
我不感兴趣的解决方案只适用于JRuby,或者使用第三方API或网站.
你能分享一些关于如何提取表格的Ruby代码吗?哪种宝石最适合这份工作?
我确定有人在遇到同样的问题:)我感谢你的帮助!
您可以使用poppler从 pdf 中提取数据。根据您的具体要求,这可能就足够了。
def extract_to_text(pdf_path)
command = ['pdftotext', Shellwords.escape(pdf_path)].join(' ')
`#{command}`
end
def extract_to_html(pdf_path)
command = ['pdftohtml', Shellwords.escape(pdf_path)].join(' ')
`#{command}`
end
Run Code Online (Sandbox Code Playgroud)
这些命令将分别将 pdf 提取到 html 文件和文本文件,并保存在 pdf 所在的同一位置。
您可以使用自制软件在 Mac 上安装 poppler:
brew install poppler
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1568 次 |
| 最近记录: |