使用 xmllint 无效标签解析 HTML5

Mat*_*tts 6 html tidy xmllint

我正在尝试使用 xmllint 解析 html5,它在某些标签上生成错误。为了确保它有效,我首先通过 tidy 管道输出,但它产生了相同的错误。我只想提取文本。有什么办法可以读取这些无效标签吗?

命令:

echo $s | tidy -o | xmllint --html --xpath 'the xpath to be parsed'
Run Code Online (Sandbox Code Playgroud)

错误输出:

-:178: HTML parser error : Tag svg invalid "21">
Run Code Online (Sandbox Code Playgroud)

xmllint 版本:

xmllint: using libxml version 20904
Run Code Online (Sandbox Code Playgroud)