我正在尝试使用 xmllint 解析 html5,它在某些标签上生成错误。为了确保它有效,我首先通过 tidy 管道输出,但它产生了相同的错误。我只想提取文本。有什么办法可以读取这些无效标签吗?
命令:
echo $s | tidy -o | xmllint --html --xpath 'the xpath to be parsed'
Run Code Online (Sandbox Code Playgroud)
错误输出:
-:178: HTML parser error : Tag svg invalid "21">
Run Code Online (Sandbox Code Playgroud)
xmllint 版本:
xmllint: using libxml version 20904
Run Code Online (Sandbox Code Playgroud)