小编mon*_*art的帖子

为 R 中数据集的所有变量计算 table()

我希望R一个接一个地计算数据集中所有变量的表。我试过了

for (variable in names(train)){
  print(paste("The table of", variable, "is: "))
  print(table(variable))
}
Run Code Online (Sandbox Code Playgroud)

但是在使用table(variable). 我 100% 确定这非常简单,但我只是找不到方法,因为我仍然是初学者。也是如此summary()

for-loop r summary

2
推荐指数
1
解决办法
1031
查看次数

pd.duplicated() 重复组

我有一个包含许多列和行的大数据框,这些数据框是由许多 Excel 文件生成的。我想找到导致重复的文件,因为有时文件部分包含不应出现在 Excel 文件中的观察结果。我知道 df[df.duplicate(subset=['A','B'],keep=False)] 给了我所有重复的行。

import pandas as pd
df = pd.DataFrame({'A':[1,1,2,2,2,2,3,3],'B':['Q','Q','R','R','R','P','L','L'],'origin':['file1','file2','file3','file4','file5','file6','file7','file8']})
Run Code Online (Sandbox Code Playgroud)

我希望结果看起来像

result = pd.DataFrame({'A':[1,1,2,2,2,3,3],'B':['Q','Q','R','R','R','L','L'],'origin':['file1','file2','file3','file4','file5','file7','file8'],'group':['g1','g1','g2','g2','g2','g3','g3'],'duplicate_count':[2,2,3,3,3,2,2]})
Run Code Online (Sandbox Code Playgroud)

但是,我希望始终将两个(或更多)相应的重复项分组,然后打印相应的文件以及重复项发生的次数。我没有成功找到答案。

group-by pandas

2
推荐指数
1
解决办法
2150
查看次数

标签 统计

for-loop ×1

group-by ×1

pandas ×1

r ×1

summary ×1