Ken*_*awa 1 html python beautifulsoup
这是我要处理的 html 文件:
<span class="pl">Countries:</span> USA <br/>
<span class="pl">Language:</span> English <br/>
Run Code Online (Sandbox Code Playgroud)
这是我的python代码:
from bs4 import BeautifulSoup
record=[]
soup=BeautifulSoup(html)
spans=soup.find_all('span')
for span in spans:
record.append(span.text)
Run Code Online (Sandbox Code Playgroud)
我最终得到的是:
Countries: Language:
Run Code Online (Sandbox Code Playgroud)
结果漏掉了一些重要信息:“USA”和“English” 我怎样才能得到文本?
使用.next_sibling符号:
soup.find("span", text="Countries:").next_sibling
soup.find("span", text="Language:").next_sibling
Run Code Online (Sandbox Code Playgroud)