Sal*_*n A 8 php bots wget web-crawler
我需要一个可以抓取网站的脚本,并以纯文本或类似格式返回所有已抓取页面的列表; 我将提交给搜索引擎作为站点地图.我可以使用WGET生成网站的站点地图吗?或者是否有可以执行相同操作的PHP脚本?
Sal*_*n A 32
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@" > sedlog.txt
Run Code Online (Sandbox Code Playgroud)
这将创建一个名为的文件sedlog.txt,其中包含指定网站上的所有链接.您可以使用PHP或shell脚本将文本文件站点地图转换为XML站点地图.调整wget命令的参数(接受/拒绝/包含/排除)以仅获取所需的链接.