小编paw*_*wel的帖子

如何使用 BeautifulSoup (python) 防止关闭错误 HTML 中的标签?

我会自动将 HTML 页面的内容翻译成不同的语言,因此我必须从有时写得很糟糕的不同 HTML 页面中提取所有文本节点(我无法编辑这些 HTML)。

通过使用 BeautifulSoup,我可以轻松提取这些文本并将其替换为翻译,但是当我在这些操作后显示 HTML 时: html = BeautifulSoup(source_html) - 它有时会损坏,因为 BeautifulSoup 会自动关闭标签(例如 table 标签在错误的位置关闭) .

有没有办法阻止 BeautifulSoup 关闭这些标签?

例如,这是我的输入:

html = "<table><tr><td>some text</td></table>" - 关闭 tr 丢失

在汤 = BeautufulSoup(html) 之后我得到 "<table><tr><td>some text</td></tr></table>"

我想获得与输入完全相同的html...

有可能吗?

python parsing beautifulsoup html-parsing

5
推荐指数
1
解决办法
3756
查看次数

标签 统计

beautifulsoup ×1

html-parsing ×1

parsing ×1

python ×1