Cas*_*all 5 python regex parsing
我正在尝试编写一个脚本来解析由编译器/链接器生成的映射文件,如下所示:
%SEGMENT_SECTION
Start Address End Address
--------------------------------------------------------------------------------
Segment Name: S1_1, Segment Type: .bss 0A000000 0A050F23
--------------------------------------------------------------------------------
area1_start.o (.bss) 0A000000 0A000003
...
Start Address End Address
--------------------------------------------------------------------------------
Segment Name: S2_1, Segment Type: .bss 0A050F24 0A060000
--------------------------------------------------------------------------------
area2_start.o (.bss) 0A000000 0A000003
...
%NEXT_SECTION
Run Code Online (Sandbox Code Playgroud)
我目前正在编写几个正则表达式(python 的 re 模块)来解析它,但我想以一种非常易于阅读的方式编写它们,这样解析起来就非常简单。本质上:
with open('blah.map') as f:
text = f.read()
# ... Parse the file to update text to be after the %SEGMENT_SECTION
match = segment_header_re.match(text)
seg_name, seg_type, start_addr, end_addr = match.groups()
# ... (Do more with matched values)
text = text[len(match.matched_str):]
# Parse the remainder of text
Run Code Online (Sandbox Code Playgroud)
但是,我不知道如何获取匹配字符串的长度,就像我的match.matched_str伪代码一样。我在 python 的 re 文档中没有看到任何内容。有没有更好的方法来进行这种类型的解析?
对于您要实现的目标,请使用该match.span方法。
>>>
>>> s = 'The quick brown fox jumps over the lazy dog'
>>> m = re.search('brown', s)
>>> m.span()
(10, 15)
>>> start, end = m.span()
>>> s[end:]
' fox jumps over the lazy dog'
>>>
Run Code Online (Sandbox Code Playgroud)
或者只是match.end方法。
>>> s[m.end():]
' fox jumps over the lazy dog'
>>>
Run Code Online (Sandbox Code Playgroud)
另一种选择是使用正则表达式对象,它可以使用pos和endpos参数来将搜索限制为字符串的一部分。
>>> s = 'The quick brown fox jumps over the lazy dog'
>>> over = re.compile('over')
>>> brown = re.compile('brown')
>>> m_brown = brown.search(s)
>>> m_brown.span()
(10, 15)
>>> m_over = over.search(s)
>>> m_over.span()
(26, 30)
Run Code Online (Sandbox Code Playgroud)
over在匹配结束时开始搜索brown。
>>> match = over.search(s, pos = m_brown.end())
>>> match.group()
'over'
>>> match.span()
(26, 30)
Run Code Online (Sandbox Code Playgroud)
brown在匹配结束时搜索over, 不会产生匹配。
>>> match = brown.search(s, m_over.end())
>>> match.group()
Traceback (most recent call last):
File "<pyshell#71>", line 1, in <module>
match.group()
AttributeError: 'NoneType' object has no attribute 'group'
>>> print(match)
None
>>>
Run Code Online (Sandbox Code Playgroud)
对于长字符串和多次搜索,使用带有起始位置参数的正则表达式对象肯定会加快速度。