str*_*gap 5 html python beautifulsoup html-parsing
我在HTML中有一个很长的长表,因此标签不会彼此嵌套.它看起来像这样:
<tr>
<td>A</td>
</tr>
<tr>
<td class="x">...</td>
<td class="x">...</td>
<td class="x">...</td>
<td class="x">...</td>
</tr>
<tr>
<td class ="y">...</td>
<td class ="y">...</td>
<td class ="y">...</td>
<td class ="y">...</td>
</tr>
<tr>
<td>B</td>
</tr>
<tr>
<td class="x">...</td>
<td class="x">...</td>
<td class="x">...</td>
<td class="x">...</td>
</tr>
<tr>
<td class ="y">I want this</td>
<td class ="y">and this</td>
<td class ="y">and this</td>
<td class ="y">and this</td>
</tr>
Run Code Online (Sandbox Code Playgroud)
所以首先我要搜索树以找到"B".然后我想在B之后使用类y获取每个td标记的文本,但是在下一行表以"C"开始之前.
我试过这个:
results = soup.find_all('td')
for result in results:
if result.string == "B":
print(result.string)
Run Code Online (Sandbox Code Playgroud)
这让我得到了我想要的字符串B. 但是现在我想在此之后找到所有这些并且我没有得到我想要的东西.
for results in soup.find_all('td'):
if results.string == 'B':
a = results.find_next('td',class_='y')
Run Code Online (Sandbox Code Playgroud)
这给了我'B'之后的下一个td,这就是我想要的,但我似乎只能获得第一个td标签.我想抓住所有具有类y的标签,在'B'之后但在'C'之前(C没有在html中显示,但是遵循相同的模式),我想把它放到列表中.
我的结果列表是:
[['I want this'],['and this'],['and this'],['and this']]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
4339 次 |
| 最近记录: |