替换单个换行符,保留倍数

tnk*_*epp 4 python regex python-3.x

我正在解析一个文本文件并希望删除所有段落内换行符,同时实际保留形成新段落的双换行符。例如

这是我的第一首诗\n没有意义\n它应该走多远\n没有人知道。\n\n这里有几秒钟\n没有那么长\n再见\n\n

打印出来后,它应该是这样的:

This is my first poem
that does not make sense
how far should it go
nobody can know.

Here is a seconds
that is not as long
goodbye
Run Code Online (Sandbox Code Playgroud)

应该成为

这是我的第一首诗,没有人知道它应该走多远。\n\n这是一个没有那么长的再见\n\n

同样,打印时,它应该如下所示:

This is my first poem that does not make sense how far should it go nobody can know.

Here is a seconds that is not as long goodbye
Run Code Online (Sandbox Code Playgroud)

这里的技巧是删除 '\n' 的单次出现,同时保留双换行符 '\n\n',并保留空白(即“hello\nworld”变成“hello world”而不是“helloworld”) .

我可以通过首先用一个虚拟字符串(如“ $ $ $ ”或同样荒谬的东西)替换 \n\n ,然后删除 \n 然后将“ $ $ $ ”重新转换回 \n\n 来做到这一点……但这似乎过于迂回了。我可以使用单个正则表达式调用进行此转换吗?

Wik*_*żew 5

您可以用空格替换所有未用其他换行符括起来的换行符:

re.sub(r"(?<!\n)\n(?!\n)", " ", s)
Run Code Online (Sandbox Code Playgroud)

请参阅Python 演示

import re
s = "This is my first poem\nthat does not make sense\nhow far should it go\nnobody can know.\n\nHere is a seconds\nthat is not as long\ngoodbye\n\n"
res = re.sub(r"(?<!\n)\n(?!\n)", " ", s)
print(res)
Run Code Online (Sandbox Code Playgroud)

在这里,(?<!\n)是一个负回顾后,如果新行与另一换行符退去失败了比赛,并且(?!\n)是一个负向前查找该酒坊换行符的匹配,然后用另外换行符。

在此处查看更多关于Lookahead 和 Lookbehind 零长度断言的信息