我正在尝试两个数据帧之间的合并.每个数据框都有两个索引级别(日期,cusip).例如,在列中,某些列匹配两者(货币,adj日期).
通过索引合并这些的最佳方法是什么,但不要取两份货币和约会日期.
每个数据框是90列,所以我试图避免手动编写所有内容.
df: currency adj_date data_col1 ...
date cusip
2012-01-01 XSDP USD 2012-01-03 0.45
...
df2: currency adj_date data_col2 ...
date cusip
2012-01-01 XSDP USD 2012-01-03 0.45
...
Run Code Online (Sandbox Code Playgroud)
如果我做:
dfNew = merge(df, df2, left_index=True, right_index=True, how='outer')
Run Code Online (Sandbox Code Playgroud)
我明白了
dfNew: currency_x adj_date_x data_col2 ... currency_y adj_date_y
date cusip
2012-01-01 XSDP USD 2012-01-03 0.45 USD 2012-01-03
Run Code Online (Sandbox Code Playgroud)
谢谢!...
EdC*_*ica 104
您可以计算仅在一个数据框中的列,并使用它来选择合并中的列的子集
cols_to_use = df2.columns - df.columns
Run Code Online (Sandbox Code Playgroud)
然后使用它执行合并(注意这是一个索引对象,但它有一个方便的tolist()方法)
dfNew = merge(df, df2[cols_to_use], left_index=True, right_index=True, how='outer')
Run Code Online (Sandbox Code Playgroud)
这将避免合并中的任何列发生冲突
对于0.15及更高版本,新的首选语法是:
cols_to_use = df2.columns.difference(df.columns)
Run Code Online (Sandbox Code Playgroud)
谢谢@odedbd
小智 55
我在以下suffixes选项中使用.merge():
dfNew = df.merge(df2, left_index=True, right_index=True,
how='outer', suffixes=('', '_y'))
Run Code Online (Sandbox Code Playgroud)
然后,您可以根据标志"_y"过滤列,即删除它们.
Ell*_*ins 14
基于@rprog 的回答,您可以使用负正则表达式将后缀和过滤步骤的各个部分组合成一行:
dfNew = df.merge(df2, left_index=True, right_index=True,
how='outer', suffixes=('', '_DROP')).filter(regex='^(?!.*_DROP)')
Run Code Online (Sandbox Code Playgroud)
或使用df.join:
dfNew = df.join(df2, lsuffix="DROP").filter(regex="^(?!.*DROP)")
Run Code Online (Sandbox Code Playgroud)
此处的正则表达式保留不以“DROP”一词结尾的任何内容,因此请确保使用尚未出现在列中的后缀。
我是 Pandas 的新手,但我想实现同样的目标,自动避免使用 _x 或 _y 的列名并删除重复数据。我终于用这个做了回答,这一个从#1
销售.csv
城市;州;单位
门多西诺;CA;1
丹佛;CO;4
奥斯汀;德克萨斯州;2
收入.csv
branch_id;城市;收入;state_id
10;奥斯汀;100;德克萨斯州
20;奥斯汀;83;德克萨斯州
30;奥斯汀;4;德克萨斯州
47;奥斯汀;200;德克萨斯州
20;丹佛;83;一氧化碳
30;斯普林菲尔德;4;我
merge.py 导入熊猫
def drop_y(df):
# list comprehension of the cols that end with '_y'
to_drop = [x for x in df if x.endswith('_y')]
df.drop(to_drop, axis=1, inplace=True)
sales = pandas.read_csv('data/sales.csv', delimiter=';')
revenue = pandas.read_csv('data/revenue.csv', delimiter=';')
result = pandas.merge(sales, revenue, how='inner', left_on=['state'], right_on=['state_id'], suffixes=('', '_y'))
drop_y(result)
result.to_csv('results/output.csv', index=True, index_label='id', sep=';')
Run Code Online (Sandbox Code Playgroud)
执行合并命令时,我用_x空字符串替换后缀,然后我可以删除以_y
输出.csv
id;城市;州;单位;branch_id;收入;state_id
0;丹佛;一氧化碳;4;20;83;一氧化碳
1;奥斯汀;TX;2;10;100;TX
2;奥斯汀;德克萨斯州;2;20;83;德克萨斯州
3;奥斯汀;德克萨斯州;2;30;4;德克萨斯州
4;奥斯汀;德克萨斯州;2;47;200;德克萨斯州