Beautifulsoup 无法找到名称中带有连字符的类

Mar*_*nts 5 python beautifulsoup html-parsing web-scraping python-2.7

我在运行 Python 2.7.8 的 MacOSX 上使用 BeautifulSoup4。我很难从以下 html 代码中提取信息

 <tbody tabindex="0" class="yui-dt-data" id="yui_3_5_0_1_1408418470185_1650">
      <tr id="yui-rec0" class="yui-dt-first yui-dt-even">
           <td headers="yui-dt0-th-rank" class="rank yui-dt0-col-rank"></td>
           </tr>
      <tr id="yui-rec1" class="yui-dt-odd">...</tr>
      <tr id="yui-rec2" class="yui-dt-even">...</tr>
 </tbody>
Run Code Online (Sandbox Code Playgroud)

我似乎无法获取表格或其中的任何内容,因为 BS 和/或 python 似乎无法识别带有连字符的值。所以通常的代码,就像

 Table = soup.find('tbody',{'class':'yui-dt-data'})
Run Code Online (Sandbox Code Playgroud)

或者

 Row2 = Table.find('tr',{'id':'yui-rec2'})
Run Code Online (Sandbox Code Playgroud)

只返回一个空对象(不是 NONE,只是空)。我对 BS4 或 Python 并不陌生,我之前已经从这个网站提取过信息,但现在的类名与我以前提取时不同。现在一切都有连字符。有没有办法让 Python 识别连字符或解决方法?

我需要使我的代码具有通用性,以便我可以在多个具有相同类名的页面上运行它。不幸的是,id中的属性<tbody>对于该特定表来说是唯一的,因此我无法使用它来跨网页识别该表。

任何帮助,将不胜感激。提前致谢。

use*_*564 6

下面的代码:

from bs4 import BeautifulSoup

htmlstring = """ <tbody tabindex="0" class="yui-dt-data" id="yui_3_5_0_1_1408418470185_1650">
      <tr id="yui-rec0" class="yui-dt-first yui-dt-even">
      <tr id="yui-rec1" class="yui-dt-odd">
      <tr id="yui-rec2" class="yui-dt-even">"""


soup = BeautifulSoup(htmlstring)
Table = soup.find('tbody', attrs={'class': 'yui-dt-data'}) 
print("Table:\n")
print(Table)
tr = Table.find('tr', attrs={'class': 'yui-dt-odd'}) 
print("tr:\n")
print(tr)
Run Code Online (Sandbox Code Playgroud)

输出:

Table:

<tbody class="yui-dt-data" id="yui_3_5_0_1_1408418470185_1650" tabindex="0">
<tr class="yui-dt-first yui-dt-even" id="yui-rec0">
<tr class="yui-dt-odd" id="yui-rec1">
<tr class="yui-dt-even" id="yui-rec2"></tr></tr></tr></tbody>
tr:

<tr class="yui-dt-odd" id="yui-rec1">
<tr class="yui-dt-even" id="yui-rec2"></tr></tr>
Run Code Online (Sandbox Code Playgroud)

尽管您提供的 html 本身无效,但 BS 似乎正在猜测它应该如何,因为soup.prettify()产生

<tbody class="yui-dt-data" id="yui_3_5_0_1_1408418470185_1650" tabindex="0">
 <tr class="yui-dt-first yui-dt-even" id="yui-rec0">
  <tr class="yui-dt-odd" id="yui-rec1">
   <tr class="yui-dt-even" id="yui-rec2">
   </tr>
  </tr>
 </tr>
</tbody>
Run Code Online (Sandbox Code Playgroud)

虽然我猜这些 tr 不应该嵌套。

您可以尝试运行确切的代码并查看输出是什么吗?


小智 6

对于试图找到解决方案来查找属性中带有连字符的标签的人,文档中有答案 https://www.crummy.com/software/BeautifulSoup/bs4/doc/#the-keyword-arguments

这段代码会导致错误

data_soup = BeautifulSoup('<div data-foo="value">foo!</div>')
data_soup.find_all(data-foo="value")
# SyntaxError: keyword can't be an expression
Run Code Online (Sandbox Code Playgroud)

你应该做这个

data_soup.find_all(attrs={"data-foo": "value"})
# [<div data-foo="value">foo!</div>]
Run Code Online (Sandbox Code Playgroud)