Python请求很慢,需要很长时间才能完成HTTP或HTTPS请求

vau*_*ett 17 python urllib3 python-3.x python-requests

使用 requests 库请求 Web 资源或网站或 Web 服务时,请求需要很长时间才能完成。该代码类似于以下内容:

import requests
requests.get("https://www.example.com/")
Run Code Online (Sandbox Code Playgroud)

此请求需要 2 多分钟(正好 2 分 10 秒)才能完成!为什么它这么慢,我该如何解决?

vau*_*ett 44

这个问题可以有多种可能的解决方案。在 StackOverflow 上有很多关于这些的答案,所以我将尝试将它们全部结合起来,以节省您搜索它们的麻烦。

在我的搜索中,我发现了以下层面:

首先,尝试登录

对于许多问题,激活日志记录可以帮助您发现问题所在(来源):

import requests
import logging

import http.client
http.client.HTTPConnection.debuglevel = 1

# You must initialize logging, otherwise you'll not see debug output.
logging.basicConfig()
logging.getLogger().setLevel(logging.DEBUG)
requests_log = logging.getLogger("requests.packages.urllib3")
requests_log.setLevel(logging.DEBUG)
requests_log.propagate = True

requests.get("https://www.example.com")
Run Code Online (Sandbox Code Playgroud)

如果调试输出不能帮助您解决问题,请继续阅读。

如果您只需要检查服务器是否已启动,请尝试 HEAD 或流请求

不请求所有数据,而只发送 HEAD 请求()可能会更快:

requests.head("https://www.example.com")
Run Code Online (Sandbox Code Playgroud)

有些服务器不支持这个,那么你可以尝试流式响应(source):

requests.get("https://www.example.com", stream=True)
Run Code Online (Sandbox Code Playgroud)

对于连续的多个请求,请尝试使用 Session

如果您连续发送多个请求,则可以通过使用requests.Session. 这确保与服务器的连接保持打开和配置,并且还保留 cookie 作为一个很好的好处。试试这个(来源):

import requests
session = requests.Session()
for _ in range(10):
    session.get("https://www.example.com")
Run Code Online (Sandbox Code Playgroud)

要并行化您的请求(尝试 > 10 个请求),请使用 requests-futures

如果您一次发送大量请求,每个请求都会阻止执行。您可以使用例如requests-futures(来自kederrac 的想法)并行化此操作:

from concurrent.futures import as_completed
from requests_futures.sessions import FuturesSession

with FuturesSession() as session:
    futures = [session.get("https://www.example.com") for _ in range(10)]
    for future in as_completed(futures):
        response = future.result()
Run Code Online (Sandbox Code Playgroud)

注意不要让服务器同时收到太多请求。

如果这也不能解决您的问题,请继续阅读...

原因可能不在于请求,而在于服务器或您的连接

在许多情况下,原因可能在于您请求的服务器。首先,通过以相同方式请求任何其他 URL 来验证这一点:

requests.get("https://www.google.com")
Run Code Online (Sandbox Code Playgroud)

如果这工作正常,您可以将精力集中在以下可能的问题上:

服务器只允许特定的用户代理字符串

服务器可能会专门阻止requests,或者他们可能会利用白名单或其他一些原因。要发送更好的用户代理字符串,请尝试以下操作():

headers = {"User-Agent": "Mozilla/5.0 (X11; CrOS x86_64 12871.102.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.141 Safari/537.36"}
requests.get("https://www.example.com", headers=headers)
Run Code Online (Sandbox Code Playgroud)

服务器速率限制你

如果这个问题只是偶尔发生,例如在几次请求之后,服务器可能会限制你的速率。检查响应以查看它是否读取了这些内容(即“达到速率限制”、“超出工作队列深度”或类似内容;来源)。

在这里,解决方案只是在请求之间等待更长的时间,例如使用time.sleep().

服务器响应格式不正确,导致解析问题

您可以通过不读取从服务器收到的响应来检查这一点。如果代码仍然很慢,这不是你的问题,但如果这解决了它,问题可能在于解析响应。

  1. 如果某些标头设置不正确,这可能会导致解析错误,从而阻止分块传输()。
  2. 在其他情况下,手动设置编码可能会解决解析问题 ( source )。

要解决这些问题,请尝试:

r = requests.get("https://www.example.com")
r.raw.chunked = True # Fix issue 1
r.encoding = 'utf-8' # Fix issue 2
print(response.text)
Run Code Online (Sandbox Code Playgroud)

IPv6 不起作用,但 IPv4 起作用

这可能是最糟糕的问题。一种简单但很奇怪的检查方法是添加一个timeout参数,如下所示:

requests.get("https://www.example.com/", timeout=5)
Run Code Online (Sandbox Code Playgroud)

如果这返回一个成功的响应,问题应该出在 IPv6 上。原因是requests首先尝试 IPv6 连接。当超时时,它会尝试通过 IPv4 进行连接。通过将超时设置低,您可以强制它在更短的时间内切换到 IPv4。

通过利用,例如,wget或验证curl

wget --inet6-only https://www.example.com -O - > /dev/null
# or
curl --ipv6 -v https://www.example.com
Run Code Online (Sandbox Code Playgroud)

在这两种情况下,我们都会强制工具通过 IPv6 进行连接以隔离问题。如果超时,请再次尝试强制使用 IPv4:

wget --inet4-only https://www.example.com -O - > /dev/null
# or
curl --ipv4 -v https://www.example.com
Run Code Online (Sandbox Code Playgroud)

如果这一切正常,你就找到了你的问题!但是你问怎么解决?

  1. 一个蛮力的解决方案是完全禁用 IPv6
  2. 您也可以仅为当前会话禁用 IPv6
  3. 您可能只想强制请求使用 IPv4。(在链接的答案中,您必须调整代码以始终返回socket.AF_INETIPv4。)
  4. 如果你想为 SSH 解决这个问题,这里是如何为 SSH 强制使用 IPv4。(简而言之,添加AddressFamily inet到您的 SSH 配置中。)
  5. 您可能还想检查问题是否出在您的DNS 或 TCP 上

  • 对我来说,即使“wget”和“curl”适用于 IPv6,“timeout”也修复了这个问题。修改/sf/answers/3288063901/以强制使用IPv4 (3认同)
  • 我遇到了 **IPv6 路由** 的问题,“超时”修复了它 (3认同)
  • micropython 的 urequests 遇到这个问题,解决方法是添加 {'Connection': 'Close'} 标头。某些服务器不发送内容长度或发送错误的内容长度。告诉它关闭连接,确实解决了我的问题(10+秒到1秒)https://github.com/micropython/micropython-lib/issues/293 (2认同)