Joh*_*ers 4 ssis duplicates duplicate-removal
我从SSIS数据流中删除重复项中学到了如何使用排序转换来删除具有重复数据值的行.
在我的情况下,我正在读取分隔文件,需要消除重复项,并记录具有重复键的行.我需要将这些行输出到另一个分隔文件,并将其通过电子邮件发送给客户,以便他们可以更正数据并重试.
不过,我无法弄清楚如何做到这一点.我将尝试使用Aggregate和Merge Join,但我希望有一个已知的模式来做到这一点.
您好我的回答将适用于任何数据,因为互联网中的某些解决方案需要行的主键,因为我的解决方案主键不是必需的.这里是示例结构和示例数据集:
a b
1 23
1 23
16 59
12 12
13 45
12 12
45 56
Run Code Online (Sandbox Code Playgroud)

只需按所有列分组并添加最后一列 - 全部计数(如果有两列以上或更多列,则只需要在"Aggregate"元素中放入所有列和foreach set group by并最后放入"Count All"列) :

然后只需添加条件拆分元素并获取多于1个相同行的所有行:

实例:
