你如何从需要凭证(SSL)的网站上刮下来?

Sym*_*mba 5 ssl screen-scraping ruby-on-rails web-scraping

我想知道是否有人能指出我正确的方向.我想从启用SSL的网站(URL中的https)中删除HTML /文本内容.所述站点的文件系统中将有多个分支.

我的问题是:

如何从我的Rails应用程序中提供外部网站的凭据?

谢谢!

Sym*_*mba 0

require 'httpclient'
require 'nokogiri'

client = HTTPClient.new

client.set_auth("http://domain.com", "username", "password")

doc = Nokogiri::HTML(c.get_content("http://example.com"))
Run Code Online (Sandbox Code Playgroud)

大家好,很抱歉这么晚才回复您,我最近有一些事情要忙。上面的代码对我有用。(在与机械化和其他一些基于 nokogiri 的宝石进行了许多探戈之后)。其他一些宝石(例如 openuri、mechanize 等)会导致错误,例如 MD5 未知哈希算法。感谢您的时间和帮助。