在指定的时间范围内从日志文件中提取数据

ham*_* _e 24 bash

我想根据时间范围使用shell脚本(bash)从日志文件中提取信息.日志文件中的一行如下所示:

172.16.0.3 - - [31/Mar/2002:19:30:41 +0200] "GET / HTTP/1.1" 200 123 "" "Mozilla/5.0 (compatible; Konqueror/2.2.2-2; Linux)"
Run Code Online (Sandbox Code Playgroud)

我想提取特定数据的间隔.例如,我只需要查看上次记录的数据中最后X分钟或X天前发生的事件.我是shell脚本的新手,但我尝试使用grep命令.

ych*_*che 41

你可以用sed它.例如:

$ sed -n '/Feb 23 13:55/,/Feb 23 14:00/p' /var/log/mail.log
Feb 23 13:55:01 messagerie postfix/smtpd[20964]: connect from localhost[127.0.0.1]
Feb 23 13:55:01 messagerie postfix/smtpd[20964]: lost connection after CONNECT from localhost[127.0.0.1]
Feb 23 13:55:01 messagerie postfix/smtpd[20964]: disconnect from localhost[127.0.0.1]
Feb 23 13:55:01 messagerie pop3d: Connection, ip=[::ffff:127.0.0.1]
...
Run Code Online (Sandbox Code Playgroud)

这个怎么运作

所述-n开关告诉sed不输出在读取文件(默认行为)的每一行.

p正则表达式之后的最后一个表示打印与前一个表达式匹配的行.

表达式'/pattern1/,/pattern2/'将打印第一个模式和第二个模式之间的所有内容.在这种情况下,它将打印它在字符串Feb 23 13:55和字符串之间找到的每一行Feb 23 14:00.

更多信息在这里.

  • 我的评论是不可接受的(太长时间)所以这里有一个[wiki page](http://ychaouche.informatick.net/logsearch)关于特定命令如何工作,sed如何工作,以及为什么你应该学习sed如果你只是知道python (6认同)
  • 这似乎是最好的解决方案,缺乏解释它对非sed瘾者的作用,但这很好. (4认同)
  • 如果您知道日志中的时间戳是什么,并且人口密集,那么这是一种可行的方法.如果你没有得到每分钟/小时/天的条目你的正则表达式可能没有匹配你的开始或结束正则表达式,然后你分别得不到任何东西或太多. (3认同)
  • NB 在满足 end 子句的第一行停止,因此如果有多个 14:00,则只返回第一个。 (2认同)

zta*_*013 29

使用grep和正则表达式,例如,如果您需要4分钟的日志间隔:

grep "31/Mar/2002:19:3[1-5]" logfile
Run Code Online (Sandbox Code Playgroud)

将在2002年3月31日19:31和19:35之间返回所有日志行.假设您需要从2011年9月27日开始的最后5天,您可以使用以下内容:

grep "2[3-7]/Sep/2011" logfile
Run Code Online (Sandbox Code Playgroud)

  • 你可能是对的,但我的解决了一个复杂问题的快速而肮脏的解决方案,特别是那种日期格式.如果你想要有很多电源过滤日志,你应该使用不同的工具...... (3认同)
  • 我的观点: grep 不是解决这个问题的正确工具。使用正则表达式比较日期可能非常困难。例如,我想要距离最后一条记录 3 天 15 小时 32 分钟前的所有记录。它还可以有月份变化(例如一个月的最后/第一天),日期变化(一天的第一/最后一个小时),甚至年份变化。即使有可能,正则表达式也可能非常复杂。 (2认同)

Ken*_*ent 7

好吧,我花了一些时间在你的日期格式.....

然而,最后我解决了..

让我们拿一个示例文件(名为logFile),我做了一点简短.比如,你想在这个文件中获得最后5分钟的登录:

172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:20:41 +0200] "GET 
### lines below are what you want (5 mins till the last record)
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:27:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:30:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:30:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:30:41 +0200] "GET 
172.16.0.3 - - [31/Mar/2002:19:30:41 +0200] "GET 
Run Code Online (Sandbox Code Playgroud)

这是解决方案:

# this variable you could customize, important is convert to seconds. 
# e.g 5days=$((5*24*3600))
x=$((5*60))   #here we take 5 mins as example

# this line get the timestamp in seconds of last line of your logfile
last=$(tail -n1 logFile|awk -F'[][]' '{ gsub(/\//," ",$2); sub(/:/," ",$2); "date +%s -d \""$2"\""|getline d; print d;}' )

#this awk will give you lines you needs:
awk -F'[][]' -v last=$last -v x=$x '{ gsub(/\//," ",$2); sub(/:/," ",$2); "date +%s -d \""$2"\""|getline d; if (last-d<=x)print $0 }' logFile      
Run Code Online (Sandbox Code Playgroud)

输出:

172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:27:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:30:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:30:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:30:41 +0200  "GET 
172.16.0.3 - -  31 Mar 2002 19:30:41 +0200  "GET
Run Code Online (Sandbox Code Playgroud)

编辑

你可能会注意到在输出中[和]消失了.如果你确实想要它们,你可以改变最后一个awk行print $0- >print $1 "[" $2 "]" $3


nic*_*ick -1

您可以使用它来获取当前时间和日志时间:

#!/bin/bash

log="log_file_name"
while read line
do
  current_hours=`date | awk 'BEGIN{FS="[ :]+"}; {print $4}'`
  current_minutes=`date | awk 'BEGIN{FS="[ :]+"}; {print $5}'`
  current_seconds=`date | awk 'BEGIN{FS="[ :]+"}; {print $6}'`

  log_file_hours=`echo $line | awk 'BEGIN{FS="[ [/:]+"}; {print  $7}'`
  log_file_minutes=`echo $line | awk 'BEGIN{FS="[ [/:]+"}; {print  $8}'`
  log_file_seconds=`echo $line | awk 'BEGIN{FS="[ [/:]+"}; {print  $9}'`    
done < $log
Run Code Online (Sandbox Code Playgroud)

并比较log_file_*current_*变量。