使用枚举在熊猫数据框中进行循环

Question

使用枚举在熊猫数据框中进行循环

RSM*_*RSM 0 python enumerate dataframe pandas

我有一个基本数据框，它是来自不干净数据的组的结果：

 df:

Name1   Value1  Value2
A       10      30
B       40      50

Run Code Online (Sandbox Code Playgroud)

我创建了一个列表如下：

Segment_list = df['Name1'].unique()
Segment_list 

array(['A', 'B'], dtype=object)

Run Code Online (Sandbox Code Playgroud)

现在我想遍历列表并找到每次迭代的 Value1 中的数量，所以我使用：

for Segment_list in enumerate(Segment_list):
    print(df['Value1'])

Run Code Online (Sandbox Code Playgroud)

但是我得到了两个值而不是一个一个。我只需要一次迭代的一个值。这可能吗？

Expected output:

10
40

Run Code Online (Sandbox Code Playgroud)

Answer 1

Tre*_*ney 6

我建议使用pandas.DataFrame.groupby来获取每个组的值。
在大多数情况下，使用for-loopwith 熊猫表明它可能没有正确或有效地完成。
其他资源：
- 快速、灵活、简单和直观：如何加速您的 Pandas 项目
- Stack Overflow Pandas 标签信息页面

选项1：

import pandas as pd
import numpy as np
import random

np.random.seed(365)
random.seed(365)
rows = 25
data = {'n': [random.choice(['A', 'B', 'C']) for _ in range(rows)],
        'v1': np.random.randint(40, size=(rows)),
        'v2': np.random.randint(40, size=(rows))}

df = pd.DataFrame(data)

# groupby n
for g, d in df.groupby('n'):
#     print(g)               # use or not, as needed
    print(d.v1.values[0])    # selects the first value of each group and prints it

[out]:  # first value of each group
5
33
18

Run Code Online (Sandbox Code Playgroud)

选项 2：

dfg = df.groupby(['n'], as_index=False).agg({'v1': list})

# display(dfg)
   n                                   v1
0  A  [5, 26, 39, 39, 10, 12, 13, 11, 28]
1  B      [33, 34, 28, 31, 27, 24, 36, 6]
2  C        [18, 27, 9, 36, 35, 30, 3, 0]

Run Code Online (Sandbox Code Playgroud)

选项 3：

如评论中所述，您的数据已经是的结果groupby，并且它在每一组的列中只会有一个值。

dfg = df.groupby('n', as_index=False).sum()

# display(dfg)

   n   v1   v2
0  A  183  163
1  B  219  188
2  C  158  189

# print the value for each group in v1
for v in dfg.v1.to_list():
    print(v)

[out]:
183
219
158

Run Code Online (Sandbox Code Playgroud)

选项 4：

打印每列的所有行

dfg = df.groupby('n', as_index=False).sum()

for col in dfg.columns[1:]:  # selects all columns after n
    for v in dfg[col].to_list():
        print(v)

[out]:
183
219
158
163
188
189

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，10 月前
查看次数：	1504 次
最近记录：	5 年，10 月前