小编Kei*_*owd的帖子

使用循环创建多个数据框

这无疑反映了我的知识匮乏，但我在网上找不到任何帮助。我对编程很陌生。我想加载 6 个 csv，并对它们做一些操作，然后再将它们合并。以下代码迭代每个文件，但仅创建一个名为df.

files = ('data1.csv', 'data2.csv', 'data3.csv', 'data4.csv', 'data5.csv', 'data6.csv')
dfs = ('df1', 'df2', 'df3', 'df4', 'df5', 'df6')
for df, file in zip(dfs, files):
    df = pd.read_csv(file)
    print(df.shape)
    print(df.dtypes)
    print(list(df))

Run Code Online (Sandbox Code Playgroud)

dictionary for-loop python-3.x pandas

Bob*_*rer

2018 02-21

5
推荐指数

1
解决办法

3万
查看次数

为什么数据选择性能在按字典顺序排序的数据帧上"更好"？

我正在通过Wes McKinney的新版Python for Data Analysis和pg.他在第8章中指出,如果索引按字典顺序从最外层开始排序,那么大熊猫中的数据选择性能在分层索引对象(例如,数据帧)上"要好得多".

换句话说,在此数据框上选择数据:

key1 key2 col1
1    a    11
     b    12
2    a    13
     b    14

Run Code Online (Sandbox Code Playgroud)

......比这个数据帧上的数据选择"好得多":

key1 key2 col1
1    a    11
2    a    13
1    b    12
2    b    14

Run Code Online (Sandbox Code Playgroud)

Wes没有对此声明提供解释.

请有人向我解释:

为什么第一个数据帧上的数据选择"比第二个数据帧"好得多？换句话说,当数据框从最外层开始按字典顺序排序时,为什么数据帧上的数据选择具有"更好"的分层索引？
在这种情况下,"更好"意味着什么？快点？内存效率更高？别的什么？

python dataframe pandas

Kei*_*owd

lucky-day

5
推荐指数

0
解决办法

28
查看次数

标签统计

pandas ×2

dataframe ×1

dictionary ×1

for-loop ×1

python ×1

python-3.x ×1

使用循环创建多个数据框

为什么数据选择性能在按字典顺序排序的数据帧上"更好"？

标签 统计

小编Kei_owd的帖子

标签统计