嗨,我有很多CSV文件要处理.每个文件都是由算法运行生成的.我的数据总是有一个键和一个这样的值:
csv1:
index value
1 1 1
2 2 1
3 3 1
4 4 1
5 5 1
Run Code Online (Sandbox Code Playgroud)
CSV2:
index value
1 4 3
2 5 3
3 6 3
4 7 3
5 8 3
Run Code Online (Sandbox Code Playgroud)
现在我想聚合这些CSV数据,如下所示:
当两个文件包含相同的密钥(例如5)时,结果行应包含密钥,两个文件共享(5)和两个值的平均值((1 + 3)/ 2 = 2).如果只有一个文件包含一个密钥(例如2),则该行只会添加到结果表中(key = 2,value = 1).
像这样的东西:
index value
1 1 1
2 2 1
3 3 1
4 4 2 (as (1+4)/2 = 2)
5 5 2 (as (1+4)/2 = 2)
6 6 3
7 7 3 …Run Code Online (Sandbox Code Playgroud)