rus*_*ias 2 python http-error web-scraping python-requests google-colaboratory
目标: 我试图从此页面抓取 HTML:https://www.doherty.jobs/jobs/search?q =&l=&lat=&long=& d= 。
(注意 - 我最终会想要分页并从此页面抓取所有职位列表)
我的问题: 当我尝试使用 Python 和 Requests 抓取页面时,出现 503 错误。我在 Google Colab 工作。
初始代码:
import requests
url = 'https://www.doherty.jobs/jobs/search?q=&l=&lat=&long=&d='
response = requests.get(url)
print(response)
Run Code Online (Sandbox Code Playgroud)
尝试过的解决方案:
import requests
def getUrl(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36',
}
res = requests.get(url, headers=headers)
res.raise_for_status()
getUrl('https://www.doherty.jobs/jobs/search?q=&l=&lat=&long=&d=')
Run Code Online (Sandbox Code Playgroud)
我可以通过浏览器访问该网站。
还有什么我可以尝试的吗?
谢谢
该页面受 cloudflare 保护,有一些选项可以尝试绕过它,似乎使用 cloudscraper 有效:
import cloudscraper
scraper = cloudscraper.create_scraper()
url = 'https://www.doherty.jobs/jobs/search?q=&l=&lat=&long=&d='
response = scraper.get(url).text
print(response)
Run Code Online (Sandbox Code Playgroud)
为了使用它,您需要安装它:
pip install cloudscraper
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1524 次 |
| 最近记录: |