Kom*_*uwa -2 excel vba excel-formula openrefine data-cleaning
我对调查结果很满意。同一封电子邮件有多个提交(行)。我想找到填充最多/完成最多的行,并删除具有相同电子邮件地址的其余重复行。
我有一张这样的桌子。一封电子邮件多次提交。
| 电子邮件 | 问题1 | 问题2 | 问题3 |
|---|---|---|---|
| 邮箱1 | 回答 | 回答 | 回答 |
| 邮箱1 | 回答 | 回答 | |
| 电子邮件2 | 回答 | ||
| 电子邮件2 | 回答 | ||
| 电子邮件2 | 回答 | 回答 |
我需要删除最少归档的重复行。并得到如下结果。
| 电子邮件 | 问题1 | 问题2 | 问题3 |
|---|---|---|---|
| 邮箱1 | 回答 | 回答 | 回答 |
| 电子邮件2 | 回答 | 回答 |
如何使用 openrefine 或 Excel 执行此操作?
使用 Excel 可以轻松实现这一点。
创建一个包含公式的辅助列COUNTA(%RowRange%)。
然后将此辅助列从最大到最小排序。
最后选择整个表格,单击“删除重复项”,然后在弹出框中取消选择除电子邮件之外的所有字段。
请参阅这些分步屏幕截图:
在这样的情况下:
| 电子邮件 | 问题1 | 问题2 | 问题3 |
|---|---|---|---|
| 电子邮件2 | 回答 | ||
| 电子邮件2 | 回答 | 回答 |
问题2的答案当然会丢失。如果您需要合并此类情况以产生如下所示的一行:
| 电子邮件 | 问题1 | 问题2 | 问题3 |
|---|---|---|---|
| 电子邮件2 | 回答 | 回答 | 回答 |
这也是很容易实现的。让我知道这是否是您所需要的或者第一个解决方案是否足够。