使用Nokogiri列出HTML中存在的标签

Question

使用Nokogiri列出HTML中存在的标签

我正在尝试使用Nokogiri来计算HTML页面上的所有属性。假设我搜索Google，我如何使用Nokogiri来计算来自该域源的每个HTML标签？

这是我的出发点，没有达到我期望的结果：

require 'open-uri'
doc = Nokogiri::HTML(open("http://www.stackoverflow.com/"))
@doc = Nokogiri::XML(doc)
@doc.xpath("//*")

Run Code Online (Sandbox Code Playgroud)

Answer 1

Chr*_*ald 6

这样的事情将满足您的需求：

require 'nokogiri'
require 'open-uri'
require 'awesome_print'

# Create a Nokogiri document
doc = Nokogiri::HTML(open("http://www.stackoverflow.com/").read)
# Iterate each node in the result set, and for each tag, increment the appropriate counter on the output hash
ap doc.xpath("//*").map(&:name).each_with_object({}) {|n, r| r[n] = (r[n] || 0) + 1 }

Run Code Online (Sandbox Code Playgroud)

结果：

{
        "html" => 1,
        "head" => 1,
       "title" => 1,
        "link" => 5,
        "meta" => 7,
      "script" => 13,
        "body" => 1,
    "noscript" => 2,
         "div" => 1429,
          "h3" => 99,
           "a" => 717,
          "ul" => 5,
          "li" => 89,
        "span" => 490,
        "form" => 1,
       "input" => 1,
          "br" => 4,
           "b" => 3,
          "ol" => 8,
          "h1" => 1,
         "img" => 9,
          "h2" => 1,
          "h4" => 1,
       "table" => 1,
          "tr" => 2,
          "th" => 5,
          "td" => 7
}

Run Code Online (Sandbox Code Playgroud)

#name 是每个具有标签名称的节点上的属性，因此我们只是将节点集简化为以该关键字为关键字的输出哈希。

归档时间：	10 年，9 月前
查看次数：	419 次
最近记录：	10 年，9 月前