Led*_*Led 13 c# regex string replace
我的输入包含用户发布的字符串.
我想要做的是创建一个包含单词的字典,以及它们被使用的频率.这意味着我想解析一个字符串,删除所有垃圾,并获得一个单词列表作为输出.
例如,输入是
"#@!@LOLOLOL YOU'VE BEEN \***PWN3D*** ! :') !!!1einszwei drei !"
我需要的输出是列表:
"LOLOLOL""YOU'VE""BEEN""PWN3D""einszwei""drei"我不是正常表达的英雄,而且一直在谷歌搜索,但我的谷歌功夫接缝很弱......
我如何从输入转到想要的输出?
Joh*_*zen 19
简单的正则表达式:
\w+
这匹配一串"单词"字符.这几乎就是你想要的.
这稍微准确一些:
\w(?<!\d)[\w'-]*
它匹配任意数量的单词字符,确保第一个字符不是数字.
这是我的比赛:
1 LOLOLOL
2你
3人
4 PWN3D
5 einszwei
6 drei
现在,这更像是它.
编辑:
负面观察的原因是一些正则表达式支持Unicode字符.使用[a-zA-Z]会错过很多可取的"单词"字符.允许\w和禁止\d包括可以在任何文本块中启动单词的所有Unicode字符.
编辑2:
我已经找到了一种更简洁的方法来获得负面的后视效果:双重负面角色类,只有一个负面排除.
[^\W\d][\w'-]*(?<=\w)
这与上面的相同,只是它还确保单词以单词字符结尾.最后,有:
[^\W\d](\w|[-']{1,2}(?=\w))*
确保一行中不超过两个非单词字符.Aka,它匹配"word-up"而不是"word-up",这是有道理的.如果你想让它匹配"word-up",而不是"word --- up",你可以2改为a 3.
| 归档时间: |
|
| 查看次数: |
25720 次 |
| 最近记录: |