sle*_*ile 3 python apply dataframe pandas
我试图获得一个数据帧,其中包含两个不同数据帧中两个独立列的所有组合.我的数据框看起来像这样:
>>>first_df >>>second_df
id test id text
0 1 abc 0 11 uvw
1 2 def 1 22 xyz
2 3 ghi
Run Code Online (Sandbox Code Playgroud)
由此,我能够使用这种方法获得组合:
df = pd.DataFrame(list(itertools.product(list(a['test']),list(b['text']))),columns=['test','text'])
>>>df
test text
0 abc uvw
1 abc xyz
2 def uvw
3 def xyz
4 ghi uvw
5 ghi xyz
Run Code Online (Sandbox Code Playgroud)
我无法理解的是,如何将相关的id列也添加到我的数据框中,如下所示:
>>>df
id test text kid
0 1 abc uvw 11
1 1 abc xyz 22
2 2 def uvw 11
3 2 def xyz 22
4 3 ghi uvw 11
5 3 ghi xyz 22
Run Code Online (Sandbox Code Playgroud)
我尝试分别在id列上进行组合
df1 =pd.DataFrame(list(itertools.product(list(a['id']),list(a['id']))),columns=['id','id'])
df
id id
0 1 1
1 1 2
2 1 3
3 2 1
4 2 2
5 2 3
6 3 1
7 3 2
8 3 3
df2 =pd.DataFrame(list(itertools.product(list(b['kid']),list(b['kid']))),columns=['kid','kid'])
>>>df2
id kid
0 11 11
1 11 22
2 22 11
3 22 22
Run Code Online (Sandbox Code Playgroud)
然后我尝试连接..这显然失败了
df = pd.concat([df['id'],df2,df1['kid']],axis=1)
>>> df
id test text kid
0 1 abc uvw 11.0
1 1 abc xyz 22.0
2 1 def uvw 11.0
3 2 def xyz 22.0
4 2 ghi uvw NaN
5 2 ghi xyz NaN
6 3 NaN NaN NaN
7 3 NaN NaN NaN
8 3 NaN NaN NaN
Run Code Online (Sandbox Code Playgroud)
我有一种感觉,我可以使用apply数据帧的功能解决这个问题,但我只是想弄清楚如何.任何线索将不胜感激.谢谢你这么多读:)
您可以使用merge具有相同常量的交叉连接和新的辅助列:
first_df['tmp'] = 1
second_df['tmp'] = 1
df = pd.merge(first_df, second_df.rename(columns={'id':'kid'}), on='tmp').drop('tmp',1)
print (df)
id test kid text
0 1 abc 11 uvw
1 1 abc 22 xyz
2 2 def 11 uvw
3 2 def 22 xyz
4 3 ghi 11 uvw
5 3 ghi 22 xyz
Run Code Online (Sandbox Code Playgroud)
assign针对新列的一行解决方案:
df = pd.merge(first_df.assign(tmp=1),
second_df.assign(tmp=1).rename(columns={'id':'kid'}), on='tmp').drop('tmp',1)
print (df)
id test kid text
0 1 abc 11 uvw
1 1 abc 22 xyz
2 2 def 11 uvw
3 2 def 22 xyz
4 3 ghi 11 uvw
5 3 ghi 22 xyz
Run Code Online (Sandbox Code Playgroud)