如何使用 Nokogiri 获取 div 中的所有内容？

Question

如何使用 Nokogiri 获取 div 中的所有内容？

我正在使用 Nokogiri 来抓取一个看起来像这样的网站：

<div class="BOX">
  <div class="apple">This is an apple.</div>
  <p>Apple a day, doctor away</p>
</div>

<div class="BOX">
  <div class="iphone">This is an iPhone.</div>
  <div class="android">This is an Android.</div>
  <a href="www.apple.com">Apple home page</a>
  <p>Snoop Lion has both. He's rich.</p>
</div>

Run Code Online (Sandbox Code Playgroud)

我想抓取“BOX”div 中的所有内容。每个“BOX”都有自己独特的 div 和 HTML 标签，没有明显的模式。我该怎么做？

我的第一次尝试是这样的：

require 'uri-open'
require 'nokogiri'

doc = Nokogiri::HTML(open('http://www.examplesite.com'))
doc.css('BOX').each do |box|
  puts box.content
end

Run Code Online (Sandbox Code Playgroud)

但它什么都不返回。我可以解释一下发生了什么吗？

Answer 1

Aru*_*hit 5

我认为你应该使用#inner_htmlmethod 而不是#content. 虽然你的 CSSclass selector规则是错误的。代码应如下所示：

require 'nokogiri'

doc = Nokogiri::HTML::Document.parse <<-eot
<div class="BOX">
  <div class="apple">This is an apple.</div>
  <p>Apple a day, doctor away</p>
</div>

<div class="BOX">
  <div class="iphone">This is an iPhone.</div>
  <div class="android">This is an Android.</div>
  <a href="www.apple.com">Apple home page</a>
  <p>Snoop Lion has both. Hes rich.</p>
</div>
eot

doc.css('.BOX').each do|n|
   p n.inner_html
end

Run Code Online (Sandbox Code Playgroud)

输出：

  <div class="apple">This is an apple.</div>
  <p>Apple a day, doctor away</p>

  <div class="iphone">This is an iPhone.</div>
  <div class="android">This is an Android.</div>
  <a href="www.apple.com">Apple home page</a>
  <p>Snoop Lion has both. He's rich.</p>

Run Code Online (Sandbox Code Playgroud)

#content将通过删除每个div节点内的 html 包装器为您提供所有文本。见下文：

doc.css('.BOX').each do|n|
   puts n.content
end

Run Code Online (Sandbox Code Playgroud)

输出：

  This is an apple.
  Apple a day, doctor away

  This is an iPhone.
  This is an Android.
  Apple home page
  Snoop Lion has both. He's rich.

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，2 月前
查看次数：	2899 次
最近记录：	12 年，2 月前