使用正则表达式从列表中删除重复的域

Eze*_*lin 1 regex string text uri

我想使用PCRE获取URI的列表并提取它.

开始:

http://abcd.tld/products/widget1       
http://abcd.tld/products/widget2    
http://abcd.tld/products/review    
http://1234.tld/
Run Code Online (Sandbox Code Playgroud)

完成:

http://abcd.tld/products/widget1
http://1234.tld/
Run Code Online (Sandbox Code Playgroud)

任何想法,亲爱的StackOverflow成员?

Ofi*_*fir 5

你可以使用uniq这样的简单工具.

请参阅评论中的kobi示例:

grep -o "^[^/]*//[^/]*/" urls.txt | sort | uniq
Run Code Online (Sandbox Code Playgroud)

  • 这应该这样做(仅限顶级域名):`grep -o"^ [^ /]*// [^ /]*/"urls.txt | 排序| uniq` (3认同)