排除 wget 中的特定文件列表

nan*_*ker 7 wget

我试图通过拨号从网站下载很多页面,但速度可能非常慢。我几乎得到了完美的wget命令,但是因为我从同一个站点下载页面wget浪费了为每个页面下载相同标准图像的时间。

如果我知道默认页面图像的名称,有没有办法wget忽略并避免为每个页面下载这些图像?

这是我的 shell 脚本生成到另一个 shell 脚本以下载所有页面的 wget 命令之一的示例:

mkdir candy-canes-on-the-flannel-board-in-preschool
cd candy-canes-on-the-flannel-board-in-preschool
wget -p -nd -A jpg,html -k http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/
wget -c --random-wait --timeout=30 --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/ -O "candy-canes-on-the-flannel-board-in-preschool"
rm Baby-and-Toddler.jpg Childrens-Books.jpg Creative-Art.jpg Felt-Fun.jpg Happy_Rainbow-e1338766526528.jpg index.html Language-and-Literacy.jpg Light-table-Button.jpg Math.jpg Outdoor-Play.jpg outer-jacket1-300x153.jpg preschoolspot-button-small.jpg robots.txt Science-and-Nature.jpg Signature-2.jpg Story-Telling.jpg Tags-on-Preschool.jpg Teaching-Two-and-Three-Year-olds.jpg
cd ../
Run Code Online (Sandbox Code Playgroud)

现在我意识到脚本不太可能像它可能的那样精明,但它正在做我目前需要的东西,除了您可以从rm命令中看到,wget如果可能的话,我只想首先阻止下载文件。

我差点忘了提到,有两个wget命令,那是因为第一个命令下载页面,index.html并且由于某种原因它没有在我的浏览器中打开,但是,当我打开它并在vim所有页面的内容中查看它时在那里,所以我不确定为什么它打不开。但是,如果我只是wget按原样发出第二个命令,那么该页面(实际上具有备用名称的同一文件)就可以正常打开。如果我能解决一些问题,也有助于简化流程。

Red*_*ick 2

Wget 有一个--reject rejlist您可以使用的选项。拒绝列表是文件名模式的列表。

它还可以选择-nc避免下载和覆盖现有文件。