如何匹配使用正则表达式的段落

Question

如何匹配使用正则表达式的段落

我一直在努力使python正则表达式试图匹配文本中的段落,但我没有成功.我需要获得段落的开头和结尾位置.

文本示例:

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod
tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At
vero eos et accusam et justo duo dolores et ea rebum. 

Stet clita kasd gubergren,
no sea takimata sanctus est Lorem ipsum dolor sit amet.

Ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod
tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At
vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren,
no sea takimata sanctus est Lorem ipsum dolor sit amet.

Run Code Online (Sandbox Code Playgroud)

在这个例子中,我想分别匹配分别以Lorem,Stet和Ipsum开头的所有段落(没有空行).有谁知道怎么做？

Answer 1

Ric*_*dle 5

您可以像这样在双换行符上分割：

paragraphs = re.split(r"\n\n", DATA)

Run Code Online (Sandbox Code Playgroud)

编辑：要将段落捕获为匹配项，以便获取其起点和终点，请执行以下操作：

for match in re.finditer(r'(?s)((?:[^\n][\n]?)+)', DATA):
   print match.start(), match.end()

# Prints:
# 0 214
# 215 298
# 299 589

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，3 月前
查看次数：	14072 次
最近记录：	11 年，3 月前