使用 Wget 我通常只收到一个 -- index.html 文件。我输入以下字符串:
wget -e robots=off -r http://www.korpora.org/kant/aa03
它只返回一个 index.html 文件,唉。
目录 aa03 暗示康德的书,第 3 卷,其中必须有大约 560 个文件(页)左右。这些页面可以在线阅读,但不会下载。有什么补救办法吗?!谢谢
小智 5
按照该链接将我们带到:
http://korpora.zim.uni-duisburg-essen.de/kant/aa03/
wget 不会跟踪指向用户未指定域的链接。由于 korpora.zim.uni-duisburg-essen.de 不等于 korpora.org,wget 将不会跟踪索引页面上的链接。
要解决此问题,请使用 --span-hosts 或 -H。-rH 是一个非常危险的组合——结合起来,你可能会不小心爬行整个互联网——所以你需要非常密切地关注它的范围。此命令将执行您打算执行的操作:
wget -e robots=off -rH -l inf -np -D korpora.org,korpora.zim.uni-duisburg-essen.de http://korpora.org/kant/aa03/index.html
(-np 或--no-parent 会将爬网限制为aa03/。-D 会将其限制为仅这两个域。-l inf 将无限深地爬网,受-D 和-np 的限制)。
| 归档时间: |
|
| 查看次数: |
4688 次 |
| 最近记录: |