在ruby中从PDF中提取文本(我有链接到PDF)

the*_*ick 8 ruby pdf

我有一个类似的链接

      http://www.downloads.com/help.pdf
Run Code Online (Sandbox Code Playgroud)

我想下载它,并解析它以获取文本内容.

我该怎么做?我还计划标记-izze(如果有这样的单词)提取的文本

see*_*dog 16

您可以使用pdf-reader gem(示例/ text.rb示例很简单,对我有用):https://github.com/yob/pdf-reader

或命令行实用程序pdftotext.

  • 我不会说适应他们的例子是一件坏事。这是一个教程,虽然您可能会感兴趣并解释了一些概念:http://pullmonkey.com/2010/01/18/ruby-pdf-reader-gem-tutorial/ (2认同)