在 bash 中,我有一个包含链接列表的数组,例如
http://xkcd.com/archive
http://what-if.xkcd.com/
http://blag.xkcd.com/
http://store.xkcd.com/
Run Code Online (Sandbox Code Playgroud)
我还有一个名为 $URL 的变量。我想将变量 $URL 设置为列表中的随机项目。
我目前正在编写一个网络爬虫机器人。它生成一个 URL 列表,我需要它来删除重复项,并按字母顺序对行进行排序。我的代码如下所示:
#! /bin/bash
URL="google.com"
while [ 1 ]; do
wget --output-document=dl.html $URL
links=($(grep -Po '(?<=href=")[^"]*' dl.html))
printf "%s\n" ${links[@]} >> results.db
sort results.db | uniq -u
URL=$(shuf -n 1 results.db)
echo $URL
done
Run Code Online (Sandbox Code Playgroud)
特别是该行:
sort results.db | uniq -u
Run Code Online (Sandbox Code Playgroud) shell-script ×2