Nel*_*ong 3 captcha beautifulsoup web-scraping google-scholar
我正在尝试使用 BeautifulSoup 从 Google 学者的作者那里获取所有出版物的完整作者列表。由于作者的主页只有每篇论文的截断作者列表,我必须打开论文的链接才能获得完整的列表。结果,我每隔几次尝试就会遇到 CAPTCHA。
有没有办法避免验证码(例如,每次请求后暂停 3 秒)?或者制作原始的 Google Scholar 个人资料页面以显示完整的作者列表?
最近我遇到了类似的问题。我通过实现这样一个随机且持久的睡眠,至少通过一个简单的解决方法简化了我的收集过程:
import time
import numpy as np
time.sleep((30-5)*np.random.random()+5) #from 5 to 30 seconds
Run Code Online (Sandbox Code Playgroud)
如果您有足够的时间(假设在晚上启动您的解析器),您可以进行更大的暂停(大 3 倍以上)以确保您不会得到验证码。
此外,您可以user-agent在对站点的请求中随机更改s,这将进一步掩盖您。
| 归档时间: |
|
| 查看次数: |
1631 次 |
| 最近记录: |