我会自动将 HTML 页面的内容翻译成不同的语言,因此我必须从有时写得很糟糕的不同 HTML 页面中提取所有文本节点(我无法编辑这些 HTML)。
通过使用 BeautifulSoup,我可以轻松提取这些文本并将其替换为翻译,但是当我在这些操作后显示 HTML 时: html = BeautifulSoup(source_html) - 它有时会损坏,因为 BeautifulSoup 会自动关闭标签(例如 table 标签在错误的位置关闭) .
有没有办法阻止 BeautifulSoup 关闭这些标签?
例如,这是我的输入:
html = "<table><tr><td>some text</td></table>" - 关闭 tr 丢失
在汤 = BeautufulSoup(html) 之后我得到 "<table><tr><td>some text</td></tr></table>"
我想获得与输入完全相同的html...
有可能吗?