使用正则表达式从HTML中的Url中删除查询字符串

Question

给定一个html文档,从文档中的每个url中删除查询字符串的最正确和简洁的正则表达式模式是什么？

Answer 1

您无法使用正则表达式有用地解析HTML.如果您事先知道页面的格式 - 例如.

那么你可以侥幸逃脱它,但对于一般[X] HTML,正则表达式解析器是不合适的.

根据您使用的语言,您需要找到HTML解析器库(例如Python的BeautifulSoup),或者结合标准XML解析器的HTML整理器,然后扫描文档中的<a>元素(也许其他的,例如.<img>如果你对这些感兴趣吗？),那么将属性值拆分为'？'.