使用Nokogiri将div嵌套在div元素中

Question

使用Nokogiri将div嵌套在div元素中

对于以下HTML,我想解析它并使用Nokogiri获得以下结果.

event_name = "folk concert 2"   
event_link = "http://www.douban.com/event/12761580/"    
event_date = "20th,11,2010"

Run Code Online (Sandbox Code Playgroud)

我知道 doc.xpath('//div[@class="nof clearfix"]')可以获得每个div元素,但我应该如何继续获得每个元素,event_name尤其是date？

HTML

 <div class="nof clearfix">        
          <h2><a href="http://www.douban.com/event/12761580/">folk concert 2</a> <span class="pl2">    </span></h2>
            <div class="pl intro">
              Date?25th,11,2010<br/>
            </div>
 </div>
 <div class="nof clearfix">        
          <h2><a href="http://www.douban.com/event/12761581/">folk concert </a> <span class="pl2">    </span></h2>
            <div class="pl intro">
              Date?10th,11,2010<br/>
            </div>
 </div>

Run Code Online (Sandbox Code Playgroud)

Answer 1

Jos*_*eek 17

我不知道的XPath,我更喜欢使用CSS选择器,他们让我更有意义.本教程可能对您有用.

require 'rubygems'
require 'nokogiri'
require 'pp'

Event = Struct.new :name , :link , :date

doc = Nokogiri::HTML DATA

events = doc.css("div.nof.clearfix").map do |eventnode|
  name = eventnode.at_css("h2 a").text.strip
  link = eventnode.at_css("h2 a")['href']
  date = eventnode.at_css("div.pl.intro").text.strip
  Event.new name , link , date
end

pp events


__END__
<div class="nof clearfix">        
         <h2><a href="http://www.douban.com/event/12761580/">folk concert 2</a> <span class="pl2">    </span></h2>
           <div class="pl intro">
             Date: 25th,11,2010<br/>
           </div>
</div>
<div class="nof clearfix">        
         <h2><a href="http://www.douban.com/event/12761581/">folk concert </a> <span class="pl2">    </span></h2>
           <div class="pl intro">
             Date: 10th,11,2010<br/>
           </div>
</div>

Run Code Online (Sandbox Code Playgroud)

这输出:

[#<struct Event
  name="folk concert 2",
  link="http://www.douban.com/event/12761580/",
  date="Date: 25th,11,2010">,
 #<struct Event
  name="folk concert",
  link="http://www.douban.com/event/12761581/",
  date="Date: 10th,11,2010">]

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年，5 月前
查看次数：	10128 次
最近记录：	14 年，10 月前