Nokogiri文本节点内容

Question

Nokogiri文本节点内容

是否有任何干净的方式来获取Nokogiri的文本节点的内容？现在我正在使用

some_node.at_xpath( "//whatever" ).first.content

Run Code Online (Sandbox Code Playgroud)

这对于获取文本来说似乎非常冗长.

Answer 1

Mar*_*mas 13

你只想要文字吗？

doc.search('//text()').map(&:text)

Run Code Online (Sandbox Code Playgroud)

也许你不想要所有的空白和噪音.如果只想要包含单词字符的文本节点,

doc.search('//text()').map(&:text).delete_if{|x| x !~ /\w/}

Run Code Online (Sandbox Code Playgroud)

编辑:您似乎只想要单个节点的文本内容:

some_node.at_xpath( "//whatever" ).text

Run Code Online (Sandbox Code Playgroud)

Answer 2

the*_*Man 8

只需查找文本节点:

require 'nokogiri'

doc = Nokogiri::HTML(<<EOT)
<html>
<body>
<p>This is a text node </p>
<p> This is another text node</p>
</body>
</html>
EOT

doc.search('//text()').each do |t|
  t.replace(t.content.strip)
end

puts doc.to_html

Run Code Online (Sandbox Code Playgroud)

哪个输出:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body>
<p>This is a text node</p>
<p>This is another text node</p>
</body></html>

Run Code Online (Sandbox Code Playgroud)

顺便说一下,你的代码示例不起作用.at_xpath( "//whatever" ).first是多余的,会失败.at_xpath将只找到第一次出现,返回一个Node.first在那一点是多余的,如果它可以工作,但它不会因为Node没有first方法.

我有<data><foo>bar</foo></bar>,我怎么得到"酒吧"文字没有做doc.xpath_at( "//data/foo" ).children.first.content？

假设doc包含解析的DOM:

doc.to_xml # => "<?xml version=\"1.0\"?>\n<data>\n  <foo>bar</foo>\n</data>\n"

Run Code Online (Sandbox Code Playgroud)

第一次出现:

doc.at('foo').text       # => "bar"
doc.at('//foo').text     # => "bar"
doc.at('/data/foo').text # => "bar"

Run Code Online (Sandbox Code Playgroud)

获取所有出现并采取第一个:

doc.search('foo').first.text      # => "bar"
doc.search('//foo').first.text    # => "bar"
doc.search('data foo').first.text # => "bar"

Run Code Online (Sandbox Code Playgroud)

归档时间：	13 年，6 月前
查看次数：	17356 次
最近记录：	9 年，7 月前