Ben*_*iel 6 c# regex unicode astral-plane
Regex.IsMatch( "foo", "[\U00010000-\U0010FFFF]" )
Run Code Online (Sandbox Code Playgroud)
抛出:System.ArgumentException:以相反的顺序解析"[ - ]" - [xy]范围.
查看\ U00010000和\ U0010FFF的十六进制值,我得到:第一个字符为0xd800 0xdc00,第二个字符为0xdbff 0xdfff.
所以我想我确实有一个问题.为什么用\ U形成的Unicode字符在字符串中分成两个字符?
为了使用 .Net 正则表达式引擎解决此类问题,我使用了以下技巧:
"[\U010000-\U10FFFF]"替换为[\uD800-\uDBFF][\uDC00-\uDFFF]
背后的想法是,由于 .Net 正则表达式处理代码单元而不是代码点,因此我们将代理范围作为常规字符提供给它。也可以通过边缘操作来指定更窄的范围,例如:[\U011DEF-\U013E07]与(?:\uD807[\uDDEF-\uDFFF])|(?:[\uD808-\uD80E][\uDC00-\uDFFF])|(?:\uD80F[\uDC00-uDE07])
它更难阅读和操作,也不是那么灵活,但仍然适合作为解决方法。