nut*_*hip 5 python beautifulsoup python-2.7
我正在玩BeautifulSoup 4,我有这个HTML代码:
</tr>
<tr>
<td id="freistoesse">Giraffe</td>
<td>14</td>
<td>7</td>
</tr>
Run Code Online (Sandbox Code Playgroud)
我想匹配<td>标签之间的两个值,所以这里是14和7.
我试过这个:
giraffe = soup.find(text='Giraffe').findNext('td').text
Run Code Online (Sandbox Code Playgroud)
但这只是匹配14.如何使用此功能匹配这两个值?
unu*_*tbu 10
使用find_all而不是findNext:
import bs4 as bs
content = '''\
<tr>
<td id="freistoesse">Giraffe</td>
<td>14</td>
<td>7</td>
</tr>'''
soup = bs.BeautifulSoup(content)
for td in soup.find('td', text='Giraffe').parent.find_all('td'):
print(td.text)
Run Code Online (Sandbox Code Playgroud)
产量
Giraffe
14
7
Run Code Online (Sandbox Code Playgroud)
或者,您可以使用find_next_siblings(也称为fetchNextSiblings):
for td in soup.find(text='Giraffe').parent.find_next_siblings():
print(td.text)
Run Code Online (Sandbox Code Playgroud)
产量
14
7
Run Code Online (Sandbox Code Playgroud)
说明:
请注意,soup.find(text='Giraffe')返回NavigableString.
In [30]: soup.find(text='Giraffe')
Out[30]: u'Giraffe'
Run Code Online (Sandbox Code Playgroud)
要获取关联的td标记,请使用
In [31]: soup.find('td', text='Giraffe')
Out[31]: <td id="freistoesse">Giraffe</td>
Run Code Online (Sandbox Code Playgroud)
要么
In [32]: soup.find(text='Giraffe').parent
Out[32]: <td id="freistoesse">Giraffe</td>
Run Code Online (Sandbox Code Playgroud)
获得td标签后,您可以使用find_next_siblings:
In [35]: soup.find(text='Giraffe').parent.find_next_siblings()
Out[35]: [<td>14</td>, <td>7</td>]
Run Code Online (Sandbox Code Playgroud)
PS.BeautifulSoup添加了使用下划线而不是CamelCase的方法名称.他们做同样的事情,但符合PEP8风格指南建议.因此,喜欢find_next_siblings过fetchNextSiblings.