删除文本文件中的重复行?

ech*_*lab 3 regex text-editors

我正在尝试清理文本,出于某种原因,每行重复了 3 次,我是否可以使用正则表达式或技巧来消除重复项,或者您知道可以这样做的软件吗,文本文件是这样的

Party Started 10:17 (89/1/2)
Party Started 10:17 (89/1/2)
Party Started 10:17 (89/1/2)
Jessica At Dinner 17:54 (89/1/2)
Jessica At Dinner 17:54 (89/1/2)
Jessica At Dinner 17:54 (89/1/2)
Run Code Online (Sandbox Code Playgroud)

我怎样才能清理它,并摆脱重复的线路,大约有 69,587 条线路

小智 8

您可以uniq在 bash 中使用, 标准。只需输入:

uniq filewithdup.txt > filenew.txt
Run Code Online (Sandbox Code Playgroud)


Bob*_*Bob 5

既然你提到了 MS Office,我就给你一个原生的 Windows 解决方案。

如果您使用的是 Windows Vista 或更高版本,则内置了 Windows PowerShell。您可以使用以下命令Get-Unique

Get-Unique cmdlet 将排序列表中的每个项目与下一个项目进行比较,消除重复项,并仅返回每个项目的一个实例。必须对列表进行排序,cmdlet 才能正常工作。

Get-Content input.txt | Get-Unique | Set-Content output.txt
Run Code Online (Sandbox Code Playgroud)

如果它没有排序,你可以使用Sort-Object -Unique(它也适用于已经排序的输入,但如果你不想删除它们之间的其他行的重复项,请不要使用)。

Get-Content input.txt | Sort-Object -Unique | Set-Content output.txt
Run Code Online (Sandbox Code Playgroud)