尝试抓取单个网站页面时出现 503 错误 | 蟒蛇 | 要求

Question

尝试抓取单个网站页面时出现 503 错误 | 蟒蛇 | 要求

rus*_*ias 2 python http-error web-scraping python-requests google-colaboratory

目标： 我试图从此页面抓取 HTML：https://www.doherty.jobs/jobs/search?q =&l=&lat=&long=& d= 。

（注意 - 我最终会想要分页并从此页面抓取所有职位列表）

我的问题： 当我尝试使用 Python 和 Requests 抓取页面时，出现 503 错误。我在 Google Colab 工作。

初始代码：

import requests

url = 'https://www.doherty.jobs/jobs/search?q=&l=&lat=&long=&d='

response = requests.get(url)

print(response)

Run Code Online (Sandbox Code Playgroud)

尝试过的解决方案：

使用“用户代理”：“Mozilla/5.0（Windows NT 10.0；Win64；x64）AppleWebKit/537.36（KHTML，如 Gecko）Chrome/92.0.4515.131 Safari/537.36”
我在另一个线程中找到了实现此代码：

import requests

def getUrl(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36',
    }
    res = requests.get(url, headers=headers)
    res.raise_for_status()

getUrl('https://www.doherty.jobs/jobs/search?q=&l=&lat=&long=&d=')

Run Code Online (Sandbox Code Playgroud)

我可以通过浏览器访问该网站。

还有什么我可以尝试的吗？

谢谢

Answer 1

Fck*_*nda 7

该页面受 cloudflare 保护，有一些选项可以尝试绕过它，似乎使用 cloudscraper 有效：

import cloudscraper

scraper = cloudscraper.create_scraper()
url = 'https://www.doherty.jobs/jobs/search?q=&l=&lat=&long=&d='

response = scraper.get(url).text

print(response)

Run Code Online (Sandbox Code Playgroud)

为了使用它，您需要安装它：

pip install cloudscraper

Run Code Online (Sandbox Code Playgroud)

归档时间：	4 年，3 月前
查看次数：	1524 次
最近记录：	4 年，3 月前