如何使用sed从文件中删除html标签?

Abd*_*red 0 sed regular-expression html

我有一个文件,它混合了我需要的普通文本和 html 标签。我知道使用 REGEX 可以识别 html 标签,使用 sed 可以将它们交换为空字符串,但我不知道如何具体应用它。

Cit*_*ght 7

如果你不坚持sed,最好的办法就是这样做lynx

lynx --dump <filename>.html

这将以 html 代码打算显示的格式输出 html 文件的内容。唯一的条件是文件名应该有一个.html.htm扩展名。