Mar*_*ter 8 python regex python-3.x
我想处理日志文件中的每一行,IP如果行与我的模式匹配,则提取地址。有几种不同类型的消息,在下面的示例中,我正在使用p1 andp2`。
我可以逐行读取文件,并且每一行都与每种模式匹配。但是,由于可以有更多的模式,因此我想尽可能高效地进行操作。我希望将thos模式编译成一个对象,并且只对每行进行一次匹配:
import re
IP = r'(?P<ip>\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})'
p1 = 'Registration from' + IP + '- Wrong password'
p2 = 'Call from' + IP + 'rejected because extension not found'
c = re.compile(r'(?:' + p1 + '|' + p2 + ')')
for line in sys.stdin:
match = re.search(c, line)
if match:
print(match['ip'])
Run Code Online (Sandbox Code Playgroud)
但是上面的代码不起作用,它抱怨ip使用了两次。
实现目标的最优雅方式是什么?
编辑:
我已经根据@Dev Khadka的回答修改了我的代码。
但是我仍然在努力如何正确处理多个ip比赛。下面的代码显示与p1匹配的所有IP:
for line in sys.stdin:
match = c.search(line)
if match:
print(match['ip1'])
Run Code Online (Sandbox Code Playgroud)
但是有些线不匹配p1。他们匹配p2。即,我得到:
1.2.3.4
None
2.3.4.5
...
Run Code Online (Sandbox Code Playgroud)
如何打印匹配的IP,当我不知道wheter是p1,p2...?我只需要IP。我不在乎它匹配哪个模式。
您可以考虑安装优秀的regex模块,它支持许多高级正则表达式功能,包括分支重置组,旨在准确解决您在本问题中概述的问题。分支重置组用 表示(?|...)。分支重置组内不同替代模式中相同位置或名称的所有捕获组共享相同的输出捕获组。
请注意,在下面的示例中,匹配的捕获组成为命名捕获组,因此您无需迭代多个组来搜索非空组:
import regex
ip_pattern = r'(?P<ip>\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})'
patterns = [
'Registration from {ip} - Wrong password',
'Call from {ip} rejected because extension not found'
]
pattern = regex.compile('(?|%s)' % '|'.join(patterns).format(ip=ip_pattern))
for line in sys.stdin:
match = regex.search(pattern, line)
if match:
print(match['ip'])
Run Code Online (Sandbox Code Playgroud)
演示: https: //repl.it/@blhsing/RegularEmbellishedBugs
| 归档时间: |
|
| 查看次数: |
164 次 |
| 最近记录: |