多线程卷曲无法处理大量并发URL?

Sta*_*bie 5 php multithreading curl

我必须同时调用大量的API.我试图通过多线程curl来做到这一点,但它似乎无法正确获取所有API结果(一些错误;我认为它超时???)如果我传递了很多URL .一次50个URL似乎是我可以通过的最大值,一次大约100个就是我真正开始看到问题的时候.因此,我不得不实现逻辑来块我在给定时间尝试卷曲的URL.

问题:

  1. 什么可能导致我的卷曲问题?
  2. 有什么卷曲我可以设置告诉它等待更长时间的响应 - 如果我的问题与超时有关吗?
  3. 我的server/php.ini中有什么东西我可以配置来提高我的脚本的性能吗?

这是脚本:

function multithreaded_curl(array $urls, $concurrent_urls = 50)
    {
        // Data to be returned
        $total_results = array();

        // Chunk the URLs
        $chunked_urls = array_chunk($urls, $concurrent_urls);
        foreach ($chunked_urls as $chunked_url) {
            // Chunked results
            $results = array();

            // Array of cURL handles
            $curl_handles = array();

            // Multi-handle
            $mh = curl_multi_init();

            // Loop through $chunked_urls and create curl handles, then add them to the multi-handle
            foreach ($chunked_url as $k => $v) {
                $curl_handles[$k] = curl_init();

                curl_setopt($curl_handles[$k], CURLOPT_URL, $v);
                curl_setopt($curl_handles[$k], CURLOPT_HEADER, 0);
                curl_setopt($curl_handles[$k], CURLOPT_RETURNTRANSFER, 1);
                curl_setopt($curl_handles[$k], CURLOPT_SSL_VERIFYPEER, 0);

                curl_multi_add_handle($mh, $curl_handles[$k]);
            }

            // Execute the handles
            $running = NULL;
            do {
                curl_multi_exec($mh, $running);
            } while ($running > 0);

            // Get content and remove handles
            foreach ($curl_handles as $k => $v) {
                $results[$k] = json_decode(curl_multi_getcontent($v), TRUE);
                curl_multi_remove_handle($mh, $v);
            }

            // All done
            curl_multi_close($mh);

            // Combine results
            $total_results = array_merge($total_results, $results);
        }

        return $total_results;
    }
Run Code Online (Sandbox Code Playgroud)

小智 3

关于问题 1:正如已经评论过的,有几种选择可以解决该算法的问题。首先,它可能会耗尽本地(句柄等)以及远程(maxConnections、maxThreads 等)资源。不要那样做。

关于问题2:您不需要(见下文),但请在猜测错误之前先获取错误响应。

关于问题 3:是的,远程网络服务器有多个选项,具体取决于远程网络服务器的供应商(线程数、最大连接数、每个客户端的最大连接数等限制)。如果这也是您的服务器,您可以调整它们以更好地满足您的需求,但首先您应该调整客户端算法。

总的来说,一次启动多个连接没有多大意义。连接重用速度更快,不会破坏本地句柄等,也不会对远程系统进行 DOS 攻击。这样做的唯一原因是服务器处理请求的时间比 io 需要的时间长。

当您一次连接 4 个连接并重用它们而不是创建新连接时,您是否检查过速度?事实上,您正在填充curl_handles[]以供每个使用一次。创建 IO 对象需要时间。