aki*_*iva 21 scripting curl wget
我想在脚本中下载很多url但我不想保存那些导致HTTP错误的url.
据我可以从手册页告诉,既不curl或wget提供这样的功能.有谁知道另一个下载者呢?
Tho*_*mas 18
我认为-f可以选择curl做你想做的事情:
-f,--fail(HTTP)服务器错误无提示失败(根本没有输出).这主要是为了更好地启用脚本等以更好地处理失败的尝试.在正常情况下,当HTTP服务器无法传递文档时,它会返回一个HTML文档(通常也会描述原因和更多).此标志将阻止卷曲输出并返回错误22. [...]
但是,如果响应实际上是301或302重定向,则仍会保存,即使其目标将导致错误:
$ curl -fO http://google.com/aoeu
$ cat aoeu
<HTML><HEAD><meta http-equiv="content-type" content="text/html;charset=utf-8">
<TITLE>301 Moved</TITLE></HEAD><BODY>
<H1>301 Moved</H1>
The document has moved
<A HREF="http://www.google.com/aoeu">here</A>.
</BODY></HTML>
Run Code Online (Sandbox Code Playgroud)
要按照重定向到其死胡同,也可以-L选择:
-L,--location(HTTP/HTTPS)如果服务器报告请求的页面已移动到其他位置(用Location:标头和3XX响应代码表示),则此选项将使curl重做新位置的请求.[...]
Oct*_*Oct 13
我为此目的设置了一个班轮:
(仅适用于单个文件,可能对其他人有用)
A=$$; ( wget -q "http://foo.com/pipo.txt" -O $A.d && mv $A.d pipo.txt ) || (rm $A.d; echo "Removing temp file")
Run Code Online (Sandbox Code Playgroud)
这将尝试从远程主机下载文件.如果出现错误,则不保留该文件.在所有其他情况下,它被保留并重命名.
| 归档时间: |
|
| 查看次数: |
23649 次 |
| 最近记录: |