从数组中拆分带有多个分隔符的字符串(Python)

alm*_*ino 4 python split delimiter

给定一系列分隔符:

columns = ["Name:", "ID:", "Date:", "Building:", "Room:", "Notes:"]
Run Code Online (Sandbox Code Playgroud)

和一些字符串,其中一些列留空(并有随机的空格):

input = "Name:      JohnID:123:45Date:  8/2/17Building:Room:Notes:  i love notes"
Run Code Online (Sandbox Code Playgroud)

我怎么能得到这个:

["John", "123:45", "8/2/17", "", "", "i love notes"]
Run Code Online (Sandbox Code Playgroud)

我试过简单地删除子串,看看我可以从哪里去,但我仍然卡住了

import re
input = re.sub(r'|'.join(map(re.escape, columns)), "", input)
Run Code Online (Sandbox Code Playgroud)

Jea*_*bre 5

使用列表通过插入(.*)之间生成正则表达式,然后使用strip删除空格:

import re

columns = ["Name:", "ID:", "Date:", "Building:", "Room:", "Notes:"]
s = "Name:      JohnID:123:45Date:  8/2/17Building:Room:Notes:  i love notes"

result = [x.strip() for x in re.match("".join(map("{}(.*)".format,columns)),s).groups()]

print(result)
Run Code Online (Sandbox Code Playgroud)

收益率:

['John', '123:45', '8/2/17', '', '', 'i love notes']
Run Code Online (Sandbox Code Playgroud)

strip部分可以由正则表达式处理,代价是更复杂的正则表达式,但更简单的整体表达式:

result = re.match("".join(map("{}\s*(.*)\s*".format,columns)),s).groups()
Run Code Online (Sandbox Code Playgroud)

更复杂:如果字段数据包含正则表达式特殊字符,我们必须转义它们(这里不是这种情况):

result = re.match("".join(["{}\s*(.*)\s*".format(re.escape(x)) for x in columns]),s).groups()
Run Code Online (Sandbox Code Playgroud)