Big*_*ore 6 python beautifulsoup
我目前正在尝试使用Python 3.6中的请求和BeautifulSoup模块进行练习,并遇到了一个我似乎无法在其他问题和答案中找到任何信息的问题.
似乎在页面的某个时刻,Beuatiful Soup停止识别标签和ID.我试图从这样的页面中提取播放数据:
http://www.pro-football-reference.com/boxscores/201609080den.htm
import requests, bs4
source_url = 'http://www.pro-football-reference.com/boxscores/201609080den.htm'
res = requests.get(source_url)
if '404' in res.url:
raise Exception('No data found for this link: '+source_url)
soup = bs4.BeautifulSoup(res.text,'html.parser')
#this works
all_pbp = soup.findAll('div', {'id' : 'all_pbp'})
print(len(all_pbp))
#this doesn't
table = soup.findAll('table', {'id' : 'pbp'})
print(len(table))
Run Code Online (Sandbox Code Playgroud)
在Chrome中使用检查器,我可以看到该表肯定存在.我也尝试在HTML的后半部分使用'div'和'tr',它似乎不起作用.我已经尝试了标准的'html.parser'以及lxml和html5lib,但似乎没有任何效果.
我在这里做错了什么,或者HTML或其格式中是否存在阻止BeautifulSoup正确查找以后标签的内容?我遇到过这家公司(hockey-reference.com,basketball-reference.com)运营的类似网页的问题,但是能够在其他网站上正确使用这些工具.
如果它是HTML的东西,有没有更好的工具/库来帮助提取这些信息?
BF,谢谢你的帮助
| 归档时间: |
|
| 查看次数: |
5457 次 |
| 最近记录: |