我正在使用Notepad ++来清理冗长而混乱的HTML表,我正在尝试使用正则表达式.
我需要删除所有不包含特定值的表行(我可以调用该子字符串吗?).
在解开所有文件内容后,我已经能够使用以下正则表达式逐个选择每个表行及其所有内容:
<tr>.+?</tr>
Run Code Online (Sandbox Code Playgroud)
我如何改进正则表达式,以便只选择和替换包含在其中<td>一部分内部的表行定义的子字符串?
我不知道这是否重要,但每个表行的结构如下(我把每个HTML标签都放在那里,这些点代表标准内容/值)
<tr>
<td> ... </td>
<td> ... </td>
<td> <a sfref="..." href="...">!! SUBSTRING I HAVE TO MATCH HERE !!</a> </td>
<td> <img /> </td>
<td> ... </td>
<td> ... </td>
<td> ... </td>
<td> ... </td>
</tr>
Run Code Online (Sandbox Code Playgroud)