我有这样的文字:
text = """<div>
<h1>Title</h1>
<p>A long text........ </p>
<a href=""> a link </a>
</div>"""
Run Code Online (Sandbox Code Playgroud)
使用纯Python,没有外部模块我想要这个:
>>> print remove_tags(text)
Title A long text..... a link
Run Code Online (Sandbox Code Playgroud)
我知道我可以使用lxml.html.fromstring(text).text_content()来实现它,但我需要在纯Python中使用内置或std库实现相同的2.6+
我怎样才能做到这一点?
我正在为我的应用程序创建一个RSS提要文件,我想在其中删除HTML标记strip_tags.但是strip_tags不删除HTML特殊代码字符:
& ©
Run Code Online (Sandbox Code Playgroud)
等等
请告诉我任何可用于从我的字符串中删除这些特殊代码字符的函数.