使用Python结合asyncio进行Web Scraping

Question

使用Python结合asyncio进行Web Scraping

SIM*_*SIM 6 python asynchronous web-scraping python-3.x python-asyncio

我在python中编写了一个脚本来从网页上获取一些信息.如果它从asyncio中取出,代码本身就会运行得很完美.但是,当我的脚本同步运行时,我想让它通过异步过程,以便它在尽可能短的时间内完成任务,提供最佳性能,显然不是阻塞方式.因为我从未使用过这个asyncio库,所以我很困惑如何使它成为一个可行的方法.我试图在asyncio进程中使用我的脚本,但它似乎不对.如果有人伸出援助之手来完成这件事,我真的很感激他.谢谢你的提前.这是我错误的代码:

import requests ; from lxml import html
import asyncio

link = "http://quotes.toscrape.com/"

async def quotes_scraper(base_link):
        response = requests.get(base_link)
        tree = html.fromstring(response.text)
        for titles in tree.cssselect("span.tag-item a.tag"):
            processing_docs(base_link + titles.attrib['href'])

async def processing_docs(base_link):
        response = requests.get(base_link).text
        root = html.fromstring(response)
        for soups in root.cssselect("div.quote"):
            quote = soups.cssselect("span.text")[0].text
            author = soups.cssselect("small.author")[0].text
            print(quote, author)


        next_page = root.cssselect("li.next a")[0].attrib['href'] if root.cssselect("li.next a") else ""
        if next_page:
            page_link = link + next_page
            processing_docs(page_link)

loop = asyncio.get_event_loop()
loop.run_until_complete(quotes_scraper(link))
loop.close()

Run Code Online (Sandbox Code Playgroud)

在执行时,我在控制台中看到的是:

RuntimeWarning: coroutine 'processing_docs' was never awaited
  processing_docs(base_link + titles.attrib['href'])

Run Code Online (Sandbox Code Playgroud)

Answer 1

Jam*_*son 5

您需要processing_docs()使用await.

代替：

processing_docs(base_link + titles.attrib['href'])

Run Code Online (Sandbox Code Playgroud)

和：

await processing_docs(base_link + titles.attrib['href'])

Run Code Online (Sandbox Code Playgroud)

并替换：

processing_docs(page_link)

Run Code Online (Sandbox Code Playgroud)

和：

await processing_docs(page_link)

Run Code Online (Sandbox Code Playgroud)

否则它会尝试同步运行一个异步函数并感到不安！

归档时间：	8 年，3 月前
查看次数：	1239 次
最近记录：	8 年，3 月前