Nokogiri 的简单 XML 解析示例

Ril*_*n42 3 ruby nokogiri

我正在尝试获取 Response 对象的键和值列表,以便我可以将它们转换为哈希,但是我在理解 Nokogiri 时遇到了问题。XML:

<?xml version="1.0" encoding="UTF-8"?>
<xml>
<Response>
    <Name>Anonymous</Name>
    <ExternalDataReference></ExternalDataReference>
    <EmailAddress>hi guys</EmailAddress>
    <IPAddress>blahblah</IPAddress>
    <Status>0</Status>
..... (approximately 30 more elements within each response tag)
</Response>
(approximately 75 more response tags in the document)
Run Code Online (Sandbox Code Playgroud)

我的目标是为每个 Response 得到这样的东西:

Name: Anonymous
ExternalDataReference:
EmailAddress: hi guys
IPAddress: blahblah
Run Code Online (Sandbox Code Playgroud)

到目前为止我的代码:

f=File.open("./stufftoparse.xml")
doc = Nokogiri::XML(f)
puts "#{doc.xpath("//Response").keys} \n#{doc.xpath("//Response").values}"
Run Code Online (Sandbox Code Playgroud)

我知道上面的代码不起作用,但我不太明白如何获取 Response 标签中的元素(我不认为它们是 Response 的属性,因为它们在它们自己的 XML 中)。有人可以解释如何做到这一点吗?请注意,我花了一些时间阅读 Nokogiri 文档,但找不到与 XPATH 示例相关的太多内容。

附加问题: 如何将响应分开以便我有这样的东西?

Response1:
Name: Anonymous
ExternalDataReference:
EmailAddress: hi guys
IPAddress: blahblah

Response2:
Name: Anonymous
ExternalDataReference:
EmailAddress: hi guys
IPAddress: blahblah
Run Code Online (Sandbox Code Playgroud)

joe*_*son 5

如果您分步尝试,则可以更轻松地查看解决方案。

示例 XML:

<?xml version="1.0" encoding="UTF-8"?>
<xml>
  <foo>
    <goo>a</goo>
    <hoo>b</hoo>
  </foo>
  <foo>
    <goo>c</goo>
    <hoo>d</hoo>
  </foo>
</xml>
Run Code Online (Sandbox Code Playgroud)

语法//foo选择所有foo元素。

> puts doc.xpath("//foo")
<foo>
  <goo>a</goo>
  <hoo>b</hoo>
</foo>
<foo>
  <goo>c</goo>
  <hoo>d</hoo>
</foo>
Run Code Online (Sandbox Code Playgroud)

NokogiriNodeSet像这样返回节点:

> puts doc.xpath("//foo").class
Nokogiri::XML::NodeSet
Run Code Online (Sandbox Code Playgroud)

ANodeSet是可枚举的;你可以使用的方法,如eachmap等。

> puts doc.xpath("//foo").kind_of?(Enumerable)
true
Run Code Online (Sandbox Code Playgroud)

NodeSet包含两个foo要素:

> doc.xpath("//foo").each{|e| puts e.class }
Nokogiri::XML::Element
Nokogiri::XML::Element
Run Code Online (Sandbox Code Playgroud)

语法//foo/* 选择foo元素的子元素:

> puts doc.xpath("//foo/*")
<goo>a</goo>
<hoo>b</hoo>
<goo>c</goo>
<hoo>d</hoo>
Run Code Online (Sandbox Code Playgroud)

要打印元素的信息,请参阅Nokogiri/XML/Node文档;您可能需要的两种方法是nametext

为您解决:

> doc.xpath("//foo/*").each{|e|
  puts "#{e.name}:#{e.text}" 
}
goo:a
hoo:b
goo:c
hoo:d
Run Code Online (Sandbox Code Playgroud)

对于您的第二个问题,您基本上是在问:

  1. 对于每个foo元素,获取其子元素
  2. 对于每个子元素,打印名称和文本

为您解决:

> doc.xpath("//foo").each_with_index{|parent_elem, parent_count| 
  puts "Parent #{parent_count + 1}"
  parent_elem.elements.each{|child_elem|
    puts "#{child_elem.name}:#{child_elem.text}"
  }
}
Run Code Online (Sandbox Code Playgroud)