我可以异步执行“应用”到 Pandas 数据帧中的函数吗？

Question

我可以异步执行“应用”到 Pandas 数据帧中的函数吗？

我有一个熊猫数据框，在每一行上，我想执行一个函数。但是，该函数包括对远程服务器的 I/O 调用，因此如果我只是使用.apply()数据帧调用它，它会非常慢。

下面是一个例子：

def f(data):
    r = requests.get(data["url"])
    x = process(r.content)
    y = process_2(r.content)
    z = process_3(r.content)
    print("Done")

    return [x, y, z]

df.apply(lambda x: f(x), axis=1)

Run Code Online (Sandbox Code Playgroud)

在这段代码中，问题requests.get(data["url"])需要一段时间，因此整个apply()函数在完成时非常慢。的print()是在时间间隔的几秒钟印刷在控制台上。

是否可以apply()异步执行函数并更快地获得结果？我的数据帧有 5,000 多行，对每个原始数据的函数调用应该需要几秒钟。

Answer 1

Rom*_*est 11

使用著名的asyncio + aiohttp库的异步 I/O方法：

演示了示例数据帧和简单的网页内容处理例程（以展示该方法的机制）。
假设我们需要通过所有url计算所有header、link ( <a>) 和span标签，并将结果计数器存储在源数据帧中。

import pandas as pd import asyncio import aiohttp from bs4 import BeautifulSoup def count_headers(html): return len(list(html.select('h1,h2,h3,h4,h5,h6'))) def count_links(html): return len(list(html.find_all('a'))) def count_spans(html): return len(list(html.find_all('spans'))) df = pd.DataFrame({'id': [1, 2, 3], 'url': ['https://stackoverflow.com/questions', 'https://facebook.com', 'https://wiki.archlinux.org']}) df['head_c'], df['link_c'], df['span_c'] = [None, None, None] # print(df) async def process_url(df, url): async with aiohttp.ClientSession() as session: resp = await session.get(url) content = await resp.text() soup = BeautifulSoup(content, 'html.parser') headers_count = count_headers(soup) links_count = count_links(soup) spans_count = count_spans(soup) print("Done") df.loc[df['url'] == url, ['head_c', 'link_c', 'span_c']] = \ [[headers_count, links_count, spans_count]] async def main(df): await asyncio.gather(*[process_url(df, url) for url in df['url']]) print(df) loop = asyncio.get_event_loop() loop.run_until_complete(main(df)) loop.close()
Run Code Online (Sandbox Code Playgroud)
输出：

Done Done Done id url head_c link_c span_c 0 1 https://stackoverflow.com/questions 25 306 0 1 2 https://facebook.com 3 55 0 2 3 https://wiki.archlinux.org 15 91 0
Run Code Online (Sandbox Code Playgroud)
享受性能差异。

归档时间：	6 年，6 月前
查看次数：	4378 次
最近记录：	4 年，8 月前