Python-beautifulsoup-如何处理丢失的结束标签

Question

Python-beautifulsoup-如何处理丢失的结束标签

Chr*_*ian 2 python html-table beautifulsoup

我想使用 beautifulsoup 从 html 代码中抓取表格。html 的一个片段如下所示。使用时，table.findAll('tr')我得到整个表，而不仅仅是行。（可能是因为 html 代码中缺少结束标记？）

  <TABLE COLS=9 BORDER=0 CELLSPACING=3 CELLPADDING=0>
  <TR><TD><B>Artikelbezeichnung</B>
  <TD><B>Anbieter</B>
  <TD><B>Menge</B>
  <TD><B>Taxe-EK</B>
  <TD><B>Taxe-VK</B>
  <TD><B>Empf.-VK</B>
  <TD><B>FB</B>
  <TD><B>PZN</B>
  <TD><B>Nachfolge</B>

  <TR><TD>ACTIQ 200 Mikrogramm Lutschtabl.m.integr.Appl.
  <TD>Orifarm
  <TD ID=R>     30 St
  <TD ID=R>  266,67
  <TD ID=R>  336,98
  <TD>&nbsp;
  <TD>&nbsp;
  <TD>12516714
  <TD>&nbsp;

  </TABLE>

Run Code Online (Sandbox Code Playgroud)

这是我的python代码，用于显示我正在努力解决的问题：

     soup = BeautifulSoup(data, "html.parser")
     table = soup.findAll("table")[0]
     rows = table.find_all('tr')
     for tr in rows:
         print(tr.text)

Run Code Online (Sandbox Code Playgroud)

Answer 1

Zro*_*roq 5

正如他们的文档中 html5lib所述，像网络浏览器一样解析文档（就像lxml在这种情况下）。它会在需要时通过添加/关闭标签来尝试修复您的文档树。

在您的示例中，我使用 lxml 作为解析器，它给出了以下结果：

soup = BeautifulSoup(data, "lxml")
table = soup.findAll("table")[0]
rows = table.find_all('tr')
for tr in rows:
    print(tr.get_text(strip=True))

Run Code Online (Sandbox Code Playgroud)

请注意，lxml添加了 html 和 body 标签，因为它们不存在于源代码中（它将尝试创建一个格式良好的文档，如先前所述）。

归档时间：	8 年，7 月前
查看次数：	1732 次
最近记录：	8 年，7 月前