附加数据框中所有行的单词或字符列表

Question

附加数据框中所有行的单词或字符列表

有没有办法在不使用'for'循环的情况下追加数据框中不同行中的列表？

我能够通过使用'for'循环实现这一点,但我希望以更有效的方式实现这一点,可能不使用'for'循环

d = {'col1': [1,2,3,4,5], 'col2': [['a'],['a','b','c'],['d'],['e'],['a','e','d']]}
df = pd.DataFrame(data=d)
word_list = []
for i in df['col2']:
  word_list = word_list + i

Run Code Online (Sandbox Code Playgroud)

我想获得这样的输出列表:['a','a','b','c','d','e','a','e','d']

Answer 1

iz_*_*iz_ 7

一种方法是使用它panda的sum功能:

In [1]: import pandas as pd
   ...: d = {'col1': [1,2,3,4,5], 'col2': [['a'],['a','b','c'],['d'],['e'],['a','e','d']]}
   ...: df = pd.DataFrame(data=d)

In [2]: df['col2'].sum()
Out[2]: ['a', 'a', 'b', 'c', 'd', 'e', 'a', 'e', 'd']

Run Code Online (Sandbox Code Playgroud)

但是,itertools.chain.from_iterable速度要快得多:

In [3]: import itertools
   ...: list(itertools.chain.from_iterable(df['col2']))
Out[3]: ['a', 'a', 'b', 'c', 'd', 'e', 'a', 'e', 'd']

In [4]: %timeit df['col2'].sum()
92.7 µs ± 1.03 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

In [5]: %timeit list(itertools.chain.from_iterable(df['col2']))
20.4 µs ± 2.62 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)

Run Code Online (Sandbox Code Playgroud)

在我的测试中,itertools.chain.from_iterable对于较大的数据帧(~1000行),可以快30倍.另一种选择是

import functools
import operator

functools.reduce(operator.iadd, df['col2'], [])

Run Code Online (Sandbox Code Playgroud)

这几乎同样快itertools.chain.from_iterable.我为所有发布的答案制作了一个图表:

(x轴是数据帧的长度)

正如您所看到的,使用sum或functools.reduce使用的所有内容都operators.add无法使用,np.concat而且稍微好一些.然而,三位获奖者迄今是itertools.chain,itertool.chain.from_iterable和functools.reduce用operators.iadd.他们几乎没有时间.以下是用于生成图表的代码:

import functools
import itertools
import operator
import random
import string

import numpy as np
import pandas as pd
import perfplot # see https://github.com/nschloe/perfplot for this awesome library


def gen_data(n):
    return pd.DataFrame(data={0: [
        [random.choice(string.ascii_lowercase) for _ in range(random.randint(10, 20))]
        for _ in range(n)
    ]})

def pd_sum(df):
    return df[0].sum()

def np_sum(df):
    return np.sum(df[0].values)

def np_concat(df):
    return np.concatenate(df[0]).tolist()

def functools_reduce_add(df):
    return functools.reduce(operator.add, df[0].values)

def functools_reduce_iadd(df):
    return functools.reduce(operator.iadd, df[0], [])

def itertools_chain(df):
    return list(itertools.chain(*(df[0])))

def itertools_chain_from_iterable(df):
    return list(itertools.chain.from_iterable(df[0]))

perfplot.show(
    setup=gen_data,
    kernels=[
        pd_sum,
        np_sum,
        np_concat,
        functools_reduce_add,
        functools_reduce_iadd,
        itertools_chain,
        itertools_chain_from_iterable
    ],
    n_range=[10, 50, 100, 500, 1000, 1500, 2000, 2500, 3000, 4000, 5000],
    equality_check=None
)

Run Code Online (Sandbox Code Playgroud)

`sum`具有O(n ^ 2)复杂度,因此对于较大的数据帧,30x将变得更高.它实际上不适用于任何有100k +行的东西. (5认同)

归档时间：	7 年前
查看次数：	96 次
最近记录：	7 年前