Mim*_*ilt 5 .net regex vb.net utf-8
我有一个处理文档内容的VB.NET程序.该程序将大量文档处理为"批处理"(> 2Million文档;总共1TB卷)这些文档中的一些可能包含控制字符或字符,如f0e8(http://www.fileformat.info/info/unicode/char/f0e8 /browsertest.htm).
是否有一种简单而特别快速的方法来删除这些字符?(空格,换行符,标签除外......)如果答案是正则表达式:有没有人为我提供完整的正则表达式?
谢谢!
Tim*_*ker 16
尝试
resultString = Regex.Replace(subjectString, "\p{C}+", "");
这将从您的字符串中删除所有"其他"Unicode字符(控件,格式,私有使用,代理和未分配).
归档时间:
15 年,2 月 前
查看次数:
8287 次
最近记录:
13 年,10 月 前