如何修改熊猫的Read_html用户代理？

Question

如何修改熊猫的Read_html用户代理？

kbg*_*bgo 2 python urllib2 web-scraping pandas

我正在尝试使用pandas.read_html（）函数通过Transfetmarkt网站从各种html表格中抓取英语足球统计数据。

例：

import pandas as pd
url = r'http://www.transfermarkt.co.uk/en/premier-league/gegentorminuten/wettbewerb_GB1.html'
df = pd.read_html(url)

Run Code Online (Sandbox Code Playgroud)

但是，此代码会生成“ ValueError：无效的URL”错误。

然后，我尝试使用urllib2.urlopen（）函数解析同一网站。这次我收到了“ HTTPError：HTTP错误404：未找到”。经过通常的试验和错误故障查找后，结果表明urllib2标头向网络服务器提供了类似python的代理，我认为它无法识别。

现在，如果我修改urllib2的代理并使用beautifulsoup读取其内容，那么我可以毫无问题地读取表。

例：

from BeautifulSoup import BeautifulSoup
import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
url = r'http://www.transfermarkt.co.uk/en/premier-league/gegentorminuten/wettbewerb_GB1.html'
response = opener.open(url)
html = response.read()
soup = BeautifulSoup(html)
table = soup.find("table")

Run Code Online (Sandbox Code Playgroud)

如何修改熊猫的urllib2标头以允许python抓取此网站？

谢谢

Answer 1

Vik*_*kez 5

目前您不能。相关代码段：

if _is_url(io): # io is the url
    try:
        with urlopen(io) as url:
            raw_text = url.read()
    except urllib2.URLError:
        raise ValueError('Invalid URL: "{0}"'.format(io))

Run Code Online (Sandbox Code Playgroud)

如您所见，它只是将传递url给urlopen并读取数据。您可以提出请求此功能的问题，但我想您没有时间等待它解决，因此我建议使用BeautifulSoup解析html数据，然后将其加载到DataFrame中。

import urllib2

url = 'http://www.transfermarkt.co.uk/en/premier-league/gegentorminuten/wettbewerb_GB1.html'
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
response = opener.open(url)
tables = pd.read_html(response.read(), attrs={"class":"tabelle_grafik"})[0]

Run Code Online (Sandbox Code Playgroud)

或者，如果您可以使用requests：

tables = pd.read_html(requests.get(url,
                                   headers={'User-agent': 'Mozilla/5.0'}).text,
                      attrs={"class":"tabelle_grafik"})[0]

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，3 月前
查看次数：	6443 次
最近记录：	8 年，6 月前