ech*_*lab 3 regex text-editors
我正在尝试清理文本,出于某种原因,每行重复了 3 次,我是否可以使用正则表达式或技巧来消除重复项,或者您知道可以这样做的软件吗,文本文件是这样的
Party Started 10:17 (89/1/2)
Party Started 10:17 (89/1/2)
Party Started 10:17 (89/1/2)
Jessica At Dinner 17:54 (89/1/2)
Jessica At Dinner 17:54 (89/1/2)
Jessica At Dinner 17:54 (89/1/2)
Run Code Online (Sandbox Code Playgroud)
我怎样才能清理它,并摆脱重复的线路,大约有 69,587 条线路
小智 8
您可以uniq
在 bash 中使用, 标准。只需输入:
uniq filewithdup.txt > filenew.txt
Run Code Online (Sandbox Code Playgroud)
既然你提到了 MS Office,我就给你一个原生的 Windows 解决方案。
如果您使用的是 Windows Vista 或更高版本,则内置了 Windows PowerShell。您可以使用以下命令Get-Unique
:
Get-Unique cmdlet 将排序列表中的每个项目与下一个项目进行比较,消除重复项,并仅返回每个项目的一个实例。必须对列表进行排序,cmdlet 才能正常工作。
Get-Content input.txt | Get-Unique | Set-Content output.txt
Run Code Online (Sandbox Code Playgroud)
如果它没有排序,你可以使用Sort-Object -Unique
(它也适用于已经排序的输入,但如果你不想删除它们之间的其他行的重复项,请不要使用)。
Get-Content input.txt | Sort-Object -Unique | Set-Content output.txt
Run Code Online (Sandbox Code Playgroud)