删除python中html(即unformatting)中标记之间的空格和换行符

pyg*_*iel 2 html python regex

一个例子:

<p> Hello</p>
<div>hgello</div>
<pre>
   code
    code
<pre>
Run Code Online (Sandbox Code Playgroud)

变成这样的东西:

<p> Hello</p><div>hgello</div><pre>
    code
     code
<pre>
Run Code Online (Sandbox Code Playgroud)

如何在python中执行此操作?我也大量使用<pre>标签,所以用''替换所有'\n'不是一个选项.

最好的方法是什么?

phi*_*mue 5

你可以用re.sub(">\s*<","><","[here your html string]").

也许string.replace(">\n",">"),即寻找一个封闭的支架和换行符并删除换行符.