如何从UTF8字符串中删除控制字符

Mim*_*ilt 5 .net regex vb.net utf-8

我有一个处理文档内容的VB.NET程序.该程序将大量文档处理为"批处理"(> 2Million文档;总共1TB卷)这些文档中的一些可能包含控制字符或字符,如f0e8(http://www.fileformat.info/info/unicode/char/f0e8 /browsertest.htm).

是否有一种简单而特别快速的方法来删除这些字符?(空格,换行符,标签除外......)如果答案是正则表达式:有没有人为我提供完整的正则表达式?

谢谢!

Tim*_*ker 16

尝试

resultString = Regex.Replace(subjectString, "\p{C}+", "");
Run Code Online (Sandbox Code Playgroud)

这将从您的字符串中删除所有"其他"Unicode字符(控件,格式,私有使用,代理和未分配).