McL*_*odx 3 python robots.txt mechanize web-scraping
得到后
mechanize._response.httperror_seek_wrapper:HTTP 错误 403:robots.txt 不允许请求
使用 Mechanize 时,从屏幕抓取中添加了代码:绕过“HTTP 错误 403:robots.txt 不允许请求”以忽略 robots.txt,但现在收到此错误:
mechanize._response.httperror_seek_wrapper:HTTP 错误 403:禁止
有没有办法解决这个错误?
(当前代码)
br = mechanize.Browser()
br.set_handle_robots(False)
Run Code Online (Sandbox Code Playgroud)
在上面发布的两行当前代码下方添加这行代码解决了我遇到的问题:
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
4808 次 |
| 最近记录: |