我正在尝试使用 C# 处理似乎使用语音转文本的文字记录。我遇到的一个主要问题是重复单词和/或短语。我很想使用正则表达式来替换它们。这里有些例子:
我我我真的很想去,但是我不去,去不了。
我真的很想使用正则表达式替换,所以它会变成这样
我真的很想去,但我去不了。
看来我有多次单词重复,无论是否有逗号。如果我尝试替换寻找特定的,它将替换 3 个中的 2 个,但保留最后两个。因此,想出一种方法来查找多个重复并用该单词的单个版本替换它们,这已经成为一种巨大的痛苦,所以如果我有 I,I,I..... 它会被替换为 I 或 II它只用一个 I 代替。
另外,如果有这样的短语:
你知道,你知道,你知道
希望能够用一个代替三个
我已经尝试过这样的:\b(\w+)\s+\1\b,但它不适用于逗号
我已经看过了,但找不到任何寻找逗号分隔的内容。如果必须多次调用我也没关系,但只是想弄清楚。
任何帮助,将不胜感激!