我正在使用java程序中的XPath从HTML页面中抓取值来获取特定标记,偶尔使用正则表达式来清理我收到的数据.
经过一些研究,我登陆HTML Cleaner(http://htmlcleaner.sourceforge.net/)作为将原始HTML解析为良好XML格式的最可靠方法.但是,HTML Cleaner只支持XPath 1.0,我发现自己需要像'contains'这样的功能.例如,在这段XML中:
<div>
<td id='1234 foo 5678'>Hello</td>
</div>
Run Code Online (Sandbox Code Playgroud)
我希望能够通过以下XPath获取文本"Hello":
//div/td[contains(@id, 'foo')]/text()
Run Code Online (Sandbox Code Playgroud)
有没有办法获得这个功能?我有几个想法,但如果我不需要,我宁愿不重新发明轮子:
简短的问题:有没有办法在现有的Java库中使用HTML包含HTML?