RE2和UTF16(或UCS-2)

Mus*_*faM 4 regex unicode utf-16 re2

RE2很棒.快速和确定性.

但是,它仅支持UTF8.我的字符串本身就是UTF16,来回转换会破坏性能.

在RE2中实现原生UTF16功能有多难?

在RE2中实现本机UCS-2功能有多难?(这应该更容易)

即普通程序员需要多少小时才能做到这一点.

这困扰了我几个星期,所以我想我会问!

Mus*_*faM 5

RE2的创建者Russ Cox非常友好地发布了UCS-2支持补丁.但是,UCS-2不支持某些断言.Russ的回复是逐字发布的:

你好.RE2在我开源之前有一个UCS-2模式,但它不支持像^,$和\ b这样的断言,这限制了它的实用性.如果您不需要这些操作员,那么它可能适合您.我不打算重新添加UCS-2模式到RE2源,但我只是发布了删除它的更改的差异.您应该能够在本地副本中反转diff以获得UCS-2支持.该文件是Mercurial存储库根目录中的ucs2.diff.

请享用.

链接到代码:http://code.google.com/p/re2/source/list