如何删除填充最少的重复行?

Kom*_*uwa -2 excel vba excel-formula openrefine data-cleaning

我对调查结果很满意。同一封电子邮件有多个提交(行)。我想找到填充最多/完成最多的行,并删除具有相同电子邮件地址的其余重复行。

我有一张这样的桌子。一封电子邮件多次提交。

电子邮件 问题1 问题2 问题3
邮箱1 回答 回答 回答
邮箱1 回答 回答
电子邮件2 回答
电子邮件2 回答
电子邮件2 回答 回答

我需要删除最少归档的重复行。并得到如下结果。

电子邮件 问题1 问题2 问题3
邮箱1 回答 回答 回答
电子邮件2 回答 回答

如何使用 openrefine 或 Excel 执行此操作?

GWD*_*GWD 6

使用 Excel 可以轻松实现这一点。

  1. 创建一个包含公式的辅助列COUNTA(%RowRange%)

  2. 然后将此辅助列从最大到最小排序。

  3. 最后选择整个表格,单击“删除重复项”,然后在弹出框中取消选择除电子邮件之外的所有字段。

请参阅这些分步屏幕截图:

辅助列公式

删除重复项

在此输入图像描述

笔记:

在这样的情况下:

电子邮件 问题1 问题2 问题3
电子邮件2 回答
电子邮件2 回答 回答

问题2的答案当然会丢失。如果您需要合并此类情况以产生如下所示的一行:

电子邮件 问题1 问题2 问题3
电子邮件2 回答 回答 回答

这也是很容易实现的。让我知道这是否是您所需要的或者第一个解决方案是否足够。