如何使用Nokogiri解析Google搜索结果?

Mel*_*bel 7 html ruby parsing nokogiri

我需要帮助从Google搜索结果中提取网址,并被告知要使用Nokogiri.我安装了它并阅读了Nokogiri文档,但不知道从哪里开始 - 这对我来说都是希腊语.

我知道我要找的是每个结果的URL,每个结果都存在于一个<cite>标签之间.到目前为止,我能够弄清楚如何做的是拉取搜索结果,但我只是不知道如何从文件中提取特定数据.这是我拥有的极少量代码:

serp = Nokogiri::HTML(open("http://www.google.com/search?num=100&q=stackoverflow"))
Run Code Online (Sandbox Code Playgroud)

mak*_*oid 11

请享用 :)

require 'open-uri'
require 'nokogiri'

page = open "http://www.google.com/search?num=100&q=stackoverflow"
html = Nokogiri::HTML page

html.search("cite").each do |cite|
  puts cite.inner_text
end
Run Code Online (Sandbox Code Playgroud)

还看看nokogiri教程

  • 虽然这有效,但我在最近尝试上述方法后发现,每天只能进行100次查询.更具伸缩性的方法是使用Google的自定义搜索API.我写了一个完整的例子并回答了这个相关的问题.http://stackoverflow.com/a/34970424/3858363 (2认同)