用于获取URL列表的HTTP状态代码的脚本？

Question

用于获取URL列表的HTTP状态代码的脚本？

Man*_*anu 82 bash curl http-status-codes

我有一个我需要检查的URL列表,看看它们是否仍然有效.我想写一个bash脚本,为我做这个.

我只需要返回的HTTP状态代码,即200,404,500等等.而已.

编辑请注意,如果页面显示"404 not found"但返回200 OK消息,则会出现问题.这是一个配置错误的Web服务器,但您可能需要考虑这种情况.

有关详细信息,请参阅检查URL是否转到包含文本"404"的页面

Answer 1

Phi*_*hil 183

Curl有一个特定的选项,--write-out为此:

$ curl -o /dev/null --silent --head --write-out '%{http_code}\n' <url>
200

Run Code Online (Sandbox Code Playgroud)

-o /dev/null 扔掉通常的输出
--silent 扔掉进度表
--head 发出HEAD HTTP请求,而不是GET
--write-out '%{http_code}\n' 打印所需的状态代码

要在完整的Bash脚本中包装它:

#!/bin/bash
while read LINE; do
  curl -o /dev/null --silent --head --write-out "%{http_code} $LINE\n" "$LINE"
done < url-list.txt

Run Code Online (Sandbox Code Playgroud)

(鹰眼读者会注意到,这会对每个URL使用一个卷曲进程,这会对fork和TCP连接造成惩罚.如果多个URL组合在一个卷曲中会更快,但是没有空间来写出怪异的重复curl需要执行此操作的选项.)

Answer 2

小智 35

wget --spider -S "http://url/to/be/checked" 2>&1 | grep "HTTP/" | awk '{print $2}'

Run Code Online (Sandbox Code Playgroud)

仅为您打印状态代码

+1重定向网址时显示多个代码,每个代码都在新行. (8认同)

Answer 3

est*_*ani 27

扩展Phil已经提供的答案.如果你使用xargs进行调用,那么在bash中添加并行性是没有意义的.

这里的代码:

xargs -n1 -P 10 curl -o /dev/null --silent --head --write-out '%{url_effective}: %{http_code}\n' < url.lst

Run Code Online (Sandbox Code Playgroud)

-n1:仅使用一个值(来自列表)作为curl调用的参数

-P10:随时保持10个卷曲过程(即10个并行连接)

检查write_out卷曲手册中的参数,以获取可以使用它提取的更多数据(时间等).

如果它帮助某人这是我正在使用的电话:

xargs -n1 -P 10 curl -o /dev/null --silent --head --write-out '%{url_effective};%{http_code};%{time_total};%{time_namelookup};%{time_connect};%{size_download};%{speed_download}\n' < url.lst | tee results.csv

Run Code Online (Sandbox Code Playgroud)

它只是将一堆数据输出到csv文件中,该文件可以导入到任何办公工具中.

并行性、文件输入和 csv。正是我要找的。 (2认同)

Answer 4

Sal*_*èse 12

这依赖于广泛可用的wget，甚至在Alpine Linux上也几乎无处不在。

wget --server-response --spider --quiet "${url}" 2>&1 | awk 'NR==1{print $2}'

Run Code Online (Sandbox Code Playgroud)

解释如下：

--quiet

关闭Wget的输出。

来源-wget手册页

--spider

[...]它不会下载页面，只需检查它们是否在那里。[...]

来源-wget手册页

--server-response

打印HTTP服务器发送的标头和FTP服务器发送的响应。

来源-wget手册页

他们没有说的--server-response是那些标头输出被打印为标准错误（sterr），因此需要重定向到stdin。

将输出发送到标准输入，我们可以通过管道将awk其提取以提取HTTP状态代码。该代码是：

第二个（$2）非空白字符组：{$2}
在标题的第一行： NR==1

并且因为我们要打印它{print $2}。

wget --server-response --spider --quiet "${url}" 2>&1 | awk 'NR==1{print $2}'

Run Code Online (Sandbox Code Playgroud)

我将这个与 `2>&1 | 一起使用头-1 | awk '{ print $2 }'` (2认同)

Answer 5

dog*_*ane 7

用于curl仅获取HTTP标头(而不是整个文件)并解析它:

$ curl -I  --stderr /dev/null http://www.google.co.uk/index.html | head -1 | cut -d' ' -f2
200

Run Code Online (Sandbox Code Playgroud)

归档时间：	14 年，3 月前
查看次数：	113465 次
最近记录：	6 年前