我正在尝试模糊大量数据.我已经创建了一个我要替换的单词(标记)列表,我正在使用StringBuilder类逐个替换单词,如下所示:
var sb = new StringBuilder(one_MB_string);
foreach(var token in tokens)
{
sb.Replace(token, "new string");
}
Run Code Online (Sandbox Code Playgroud)
这很慢!有什么简单的事情可以加快吗?
标记是大约一千个字符串的列表,每个字符串长度为5到15个字符.
如果我有一个文本块,用英语,什么是清除所有"填充"单词的最佳方法,如"它,它,或我们,我们"等...只留下可行的单词文本的真实,核心,内容?
我正在集思广益,根据关键词组成的相似程度自动将文本块绑定在一起.
我不能成为第一个想象这一点的人.有没有一种流行的,有效的方法可以用C#来实现?
更新
我试图基本上将一个文本块链接到n个"相关"文本块,其中主要"内容"非常相似,以至于可以将其视为与其相关的文本的附加信息...