小编Wes*_*iff的帖子

使用XPath包含Java中的HTML

我正在使用java程序中的XPath从HTML页面中抓取值来获取特定标记,偶尔使用正则表达式来清理我收到的数据.

经过一些研究,我登陆HTML Cleaner(http://htmlcleaner.sourceforge.net/)作为将原始HTML解析为良好XML格式的最可靠方法.但是,HTML Cleaner只支持XPath 1.0,我发现自己需要像'contains'这样的功能.例如,在这段XML中:

<div>
  <td id='1234 foo 5678'>Hello</td>
</div>
Run Code Online (Sandbox Code Playgroud)

我希望能够通过以下XPath获取文本"Hello":

//div/td[contains(@id, 'foo')]/text()
Run Code Online (Sandbox Code Playgroud)

有没有办法获得这个功能?我有几个想法,但如果我不需要,我宁愿不重新发明轮子:

  • 如果有办法调用HTML Cleaner的evaluateXPath并返回TagNode(我还没有找到),我可以在返回的TagNode上使用XML序列化程序并将XPath链接在一起以实现所需的功能.
  • 我可以使用HTML Cleaner来清理XML,将其序列化为字符串,并将其与另一个XPath库一起使用,但我找不到适用于字符串的优秀java XPath评估程序.
  • 使用像getElementsByAttValue这样的TagNode函数,我基本上可以重新创建XPath评估并使用String.contains插入包含功能

简短的问题:有没有办法在现有的Java库中使用HTML包含HTML?

java xpath html-parsing

21
推荐指数
1
解决办法
2万
查看次数

标签 统计

html-parsing ×1

java ×1

xpath ×1