使用Regex抓取<ul>标记内的所有内容

Question

使用Regex抓取<ul>标记内的所有内容

我继承了一个网站,其中我必须更新大约3500个文件,每个文件的内容都非常95%(产品页面).

为了进行一些更改,我使用Regex(在Dreamweaver中)进行批量编辑.

我已经能够完成所有工作,但是我遇到了标签内容的问题.

我需要能够获取该标签中的所有内容,并在我替换页面上的其他内容时保存它(这是内容因页面而异的少数内容之一).

这是一个例子:

<ul>
<li style="padding-top:10px; text-align:right;"><a href="http://www.website.com/additem.wws?Sku=ABC123&sup=AAA&mfr=BBB&price=99.99&core=10.00&qty=1&description=ITEM">Single Item - $99.99 <img src="../../images/buy-now-button.gif" alt="Buy Now" width="50" height="20" border="0">&nbsp;&nbsp;&nbsp;&nbsp;</a></li>
<li style="padding-top:10px; text-align:right;"><a href="http://www.website.com/additem.wws?Sku=ABC123-6&sup=AAA&mfr=BBB&price=299.99&core=60.00&qty=1&description=INJECTOR"><strong>Set of 6 Items - $299.99</strong> <img src="../../images/buy-now-button.gif" alt="Buy Now" width="50" height="20" border="0">&nbsp;&nbsp;&nbsp;&nbsp;</a></li>
<li style="padding-top:10px"><img src="../../images/free_shipping.jpg" alt="Free Upgrade." width="227" height="107">  </li>
</ul>

Run Code Online (Sandbox Code Playgroud)

我会去更多的独立并获得个人内容<li>的标签,但问题是,一些页面只有一个<li>之内<ul>,或最多6取决于页面上变型产品的数量.

所以我的整体问题是:如何获取给定标记内的所有内容(包括新行,其他标记等)并在需要替换其余内容时保存它？我知道如何在内容周围使用括号,然后在替换部分使用$#.

到目前为止,我所使用的网站要小得多,而且我对Regex并不太需要,因为通常更容易手动更改或仅使用查找/替换中的文字文本.

Answer 1

Ala*_*ore 7

这些网页有多复杂？如果<ul>元素永远不会嵌套在其他<ul>元素中,并且您不必处理内部的伪造标记(例如)SGML注释或CDATA部分,这可能就是您所需要的:

<ul>[\s\S]*?</ul>

Run Code Online (Sandbox Code Playgroud)

[\s\S]是如何匹配任何字符,包括 JavaScript正则表达式中的换行符(这是Dreamweaver使用的,或者我已经读过).

*?告诉它匹配零或更多,不情愿 - 这意味着一旦regex(</ul>)的下一部分可以匹配就退出匹配.

归档时间：	14 年，5 月前
查看次数：	4296 次
最近记录：	10 年，7 月前