Python requests_html 渲染在某些 URL 上永远运行

Question

Python requests_html 渲染在某些 URL 上永远运行

Dav*_*e88 5 web-scraping python-3.x python-requests-html

我正在尝试编写一个简单的脚本，给定任意 URL 将返回该网站的标题标签。因为我要解析的许多 URL 需要启用 JavaScript，所以我需要使用诸如 requests_html 的渲染函数之类的东西来做到这一点。但是，我遇到了库的问题，其中下面的示例 URL 永远不会终止。我已经尝试了渲染调用的超时参数，但没有奏效。任何人都可以帮助我弄清楚如何正确地超时或其他一些解决方法以确保它不会卡住吗？

这是我当前不会终止的代码（它卡在渲染调用上）：

from requests_html import HTMLSession

session = HTMLSession()
r = session.get('http://shan-shui-inf.lingdong.works/')
# render with JS
r.html.render(sleep = 1, keep_page=True)
# Also does not work: r.html.render(sleep = 1, keep_page=True, timeout = 3)


title = r.html.find('title', first=True).full_text

Run Code Online (Sandbox Code Playgroud)

我已经尝试过类似的解决方案：函数调用超时和Python 超时装饰器仍然没有足够奇怪地超时。

注意：我在 Windows 10 上使用 Python 3.7.4 64 位。

Answer 1

小智 0

我建议将 r.session.close() 最后放置。这对我有用。

归档时间：	5 年，11 月前
查看次数：	915 次
最近记录：	5 年，5 月前