使用两列的groupby的第一行构造新列-Pandas

Question

使用两列的groupby的第一行构造新列-Pandas

我正在尝试构造一个新列，如果这是列“ type”的元素第一次具有列“ xx”的特定值，并且在任何其他情况下都赋值为0，则该列的值为1 。

我正在使用的原始数据帧（df）是：

idx = [np.array(['Jan-18', 'Jan-18', 'Feb-18', 'Mar-18', 'Mar-18', 'Mar-18','Apr-18', 'Apr-18', 'May-18', 'Jun-18', 'Jun-18', 'Jun-18','Jul-18', 'Aug-18', 'Aug-18', 'Sep-18', 'Sep-18', 'Oct-18','Oct-18', 'Oct-18', 'Nov-18', 'Dec-18', 'Dec-18',]),np.array(['A', 'B', 'B', 'A', 'B', 'C', 'A', 'B', 'B', 'A', 'B', 'C','A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'A', 'B', 'C'])]
data = [{'xx': 1000}, {'xx': 1000}, {'xx': 1200}, {'xx': 800}, {'xx': 800}, {'xx': 800},{'xx': 1000}, {'xx': 1000}, {'xx': 800}, {'xx': 1200}, {'xx': 1200}, {'xx': 1200},{'xx': 1000}, {'xx': 1000}, {'xx': 1000}, {'xx': 1600}, {'xx': 1600}, {'xx': 1000}, {'xx': 800}, {'xx': 800}, {'xx': 1000}, {'xx': 1600}, {'xx': 1600}]
df = pd.DataFrame(data, index=idx, columns=['xx'])
df.index.names=['date','type']
df=df.reset_index()
df['date'] = pd.to_datetime(df['date'],format = '%b-%y')
df=df.set_index(['date','type'])
df['xx'] = df.xx.astype('float')

Run Code Online (Sandbox Code Playgroud)

我正在寻找的结果是：

                     xx   yy
date       type
2018-01-01 A     1000.0  1.0
           B     1000.0  1.0
2018-02-01 B     1200.0  1.0
2018-03-01 A      800.0  1.0
           B      800.0  1.0
           C      800.0  1.0
2018-04-01 A     1000.0  0.0
           B     1000.0  0.0
2018-05-01 B      800.0  0.0
2018-06-01 A     1200.0  1.0
           B     1200.0  0.0
           C     1200.0  1.0
2018-07-01 A     1000.0  0.0
2018-08-01 B     1000.0  0.0
           C     1000.0  1.0
2018-09-01 A     1600.0  1.0
           B     1600.0  1.0
2018-10-01 C     1000.0  0.0
           A      800.0  0.0
           B      800.0  0.0
2018-11-01 A     1000.0  0.0
2018-12-01 B     1600.0  0.0
           C     1600.0  1.0

Run Code Online (Sandbox Code Playgroud)

我尝试了以下代码，但不起作用（它给出了错误消息）：
```
df['yy'] = df.assign(zz=(df.groupby(['type','xx']).first())).zz.transform(lambda x: 1)
```
Run Code Online (Sandbox Code Playgroud)

错误消息说

ValueError：传递0的项目数量错误，放置意味着1。

我尝试了其他方法，例如nth（0），但是它也不起作用。任何有关如何解决此问题的建议都非常欢迎。

Answer 1

Qua*_*ang 6

尝试：

df['yy'] = (df.groupby(level=1).xx
              .apply(lambda x: (~x.duplicated()).astype(int))
           )

df['yy']

Run Code Online (Sandbox Code Playgroud)

输出：

date        type
2018-01-01  A       1
            B       1
2018-02-01  B       1
2018-03-01  A       1
            B       1
            C       1
2018-04-01  A       0
            B       0
2018-05-01  B       0
2018-06-01  A       1
            B       0
            C       1
2018-07-01  A       0
2018-08-01  B       0
            C       1
2018-09-01  A       1
            B       1
2018-10-01  C       0
            A       0
            B       0
2018-11-01  A       0
2018-12-01  B       0
            C       1
Name: yy, dtype: int32

Run Code Online (Sandbox Code Playgroud)

Answer 2

Yuc*_*uca 5

使用groupby+ cumcount+ astype：

df['yy'] = df.reset_index().groupby(['type','xx']).cumcount().eq(0).astype(int).values

Run Code Online (Sandbox Code Playgroud)

结果：

                     xx  yy
date       type            
2018-01-01 A     1000.0   1
           B     1000.0   1
2018-02-01 B     1200.0   1
2018-03-01 A      800.0   1
           B      800.0   1
           C      800.0   1
2018-04-01 A     1000.0   0
           B     1000.0   0
2018-05-01 B      800.0   0
2018-06-01 A     1200.0   1
           B     1200.0   0
           C     1200.0   1
2018-07-01 A     1000.0   0
2018-08-01 B     1000.0   0
           C     1000.0   1
2018-09-01 A     1600.0   1
           B     1600.0   1
2018-10-01 C     1000.0   0
           A      800.0   0
           B      800.0   0
2018-11-01 A     1000.0   0
2018-12-01 B     1600.0   0
           C     1600.0   1

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，9 月前
查看次数：	110 次
最近记录：	6 年，9 月前