我正在寻找一个很好的工具来对 XML 执行类似 grep 的操作 - 例如,仅提取某些属性。
Grep 本身无法处理它 - 任何 DFA 等效工具只能处理非递归匹配,而我的可能是递归的。
我试过xgrep,但它很不稳定,我想要一个稳定可靠的工具。
有什么建议吗?
编辑:我更喜欢在 Linux 下运行良好的开源工具。
我有一个 HTML 文档,其中包含需要放入电子表格的术语。
他们遵循以下基本模式:
<ul>
<li class="name"><a href="spot.html">Spot</a></li>
<li class="type">Dog</li>
<li class="color">Red</li>
</ul>
<ul>
<li class="name"><a href="mittens.html">Mittens</a></li>
<li class="type">Cat</li>
<li class="color">Brown</li>
</ul>
<ul>
<li class="name"><a href="squakers.html">Squakers</a></li>
<li class="type">Little Parrot</li>
<li class="color">Rainbow</li>
</ul>
Run Code Online (Sandbox Code Playgroud)
这是非常一致的。
我需要在中提取字符串li.name a(因此,“点”),但只当type是“狗”或“鹦鹉”,并把它们在电子表格中。
我一直在尝试使用 Sublime Text 的 regex 查找功能,但我真的很挣扎,而且由于 regex 和 HTML 通常不能很好地发挥作用,我想知道是否有更好、更简单的方法来实现这一点。谢谢。