使用Ruby和Ubuntu进行光学字符识别

rya*_*yan 5 ruby ocr ubuntu screen-scraping ruby-on-rails

我是一名大学生,是时候再次购买教科书了.本季度我需要20多本课程.通常这不会是一个大问题,因为我只是将ISBN复制并粘贴到亚马逊.但是,ISBN会在我学校的图书网站上转换为图像.我想要做的就是将ISBN转换为字符串,这样我就不必手动输入每个字符串了.我已经使用GOCR将图像转换为文本,但我想将它与Ruby脚本一起使用,这样我就可以自动完成这个过程并为我的同学做同样的事情.

我可以导航到该网站.如何将图像保存到我的计算机上的文件(运行UBUNTU),使用GOCR转换图像,最后将其保存到文件中,然后我可以使用我的Ruby脚本再次访问它们?

klo*_*ner 2

听起来是一个很酷的项目,如果 ISBN 图像存储在单独的文件中,应该不会太难。

这一切都可以在后台运行:

  • 下载网页 (net/http)
  • 保存每本书的元数据+图像文件(回形针)
  • 对所有图像运行 GOCR

您所需要的只是一个 url 列表或一个爬虫(机械化),然后您可能需要花几分钟为大学 html 页面编写一个解析器(请参阅 joe 的帖子)。