小编Gio*_*tto的帖子

使用BeautifulSoup 429错误使用Python进行Web抓取

拳头我不得不说，我对使用Python进行网络抓取非常陌生。我正在尝试使用这些代码行抓取数据

import requests
from bs4 import BeautifulSoup
baseurl ='https://name_of_the_website.com'
html_page = requests.get(baseurl).text
soup = BeautifulSoup(html_page, 'html.parser')
print(soup)

Run Code Online (Sandbox Code Playgroud)

作为输出，我没有得到预期的HTML页面，但另一个HTML页面显示：内容抓取工具行为不当请使用robots.txt您的IP已受速率限制

为了检查我写的问题：

try:
page_response = requests.get(baseurl, timeout =5)
 if page_response.status_code ==200:
   html_page = requests.get(baseurl).text
   soup = BeautifulSoup(html_page, 'html.parser')

 else:
  print(page_response.status_code)
except requests.Timeout as e:
print(str(e))

Run Code Online (Sandbox Code Playgroud)

然后我得到429（请求太多）。

我该怎么处理这个问题？这是否意味着我无法打印页面的HTML，是否阻止了我刮擦页面的任何内容？我应该旋转IP地址吗？

python beautifulsoup web-scraping python-requests

Gio*_*tto

2018 08-02

1
推荐指数

1
解决办法

953
查看次数