I want to say that Napp Granade
serves in the spirit of a town in our dis-
trict of Georgia called Andersonville.
Run Code Online (Sandbox Code Playgroud)
我有数千个包含上述数据的文本文件,并且单词已使用连字符和换行符进行包装。
我想要做的是删除连字符并将换行符放在单词的末尾。如果可能的话,我不想删除所有带连字符的单词,只删除那些位于行尾的单词。
with open(filename, encoding="utf8") as f:
file_str = f.read()
re.sub("\s*-\s*", "", file_str)
with open(filename, "w", encoding="utf8") as f:
f.write(file_str)
Run Code Online (Sandbox Code Playgroud)
上面的代码不起作用,我尝试了几种不同的方法。
我想浏览整个文本文件并删除所有表示换行符的连字符。如:
I want to say that Napp Granade
serves in the spirit of a town in our district
of Georgia called Andersonville.
Run Code Online (Sandbox Code Playgroud)
任何帮助,将不胜感激。
我有一点RegEx我想弄清楚: ( of [A-Za-z ]+)?
我的正则表达式的上述部分将匹配以下内容:
新墨西哥州和史密斯夫人.
我想要做的是让RegEx停止之前and.
( of [A-Za-z ]+)\sand?
上面的RegEx非常接近解决问题,但它仍然匹配和.
以上匹配:
新墨西哥州和
我希望它输出:
新墨西哥州