如何在Clojure正则表达式中使用unicode(UTF-8)字符？

Question

如何在Clojure正则表达式中使用unicode(UTF-8)字符？

iva*_*var 12 unicode emacs clojure slime utf-8

这对你来说是一个双重问题,非常棒的Stacked Overflow Wizards.

如何在与Clojure交谈时将emacs/slime/swank设置为使用UTF-8,或者在命令行REPL中使用UTF-8？目前我无法向swank-clojure发送任何非罗马字符,并且使用命令行REPL会使事情变得糟糕.
在拉丁文本上做正则表达式真的很容易:

(re-seq#"[\ w] +""日语句子真的不需要空格吗？")

但是,如果我有一些日本人怎么办？我认为这会起作用,但我无法测试它:

(re-seq #"[(?u)\w]+" "??? ? ?? ? ? ???? ? ?? ?? ??? ???")

Run Code Online (Sandbox Code Playgroud)

如果我们必须使用字典来查找单词中断,或者自己找到一个只有片假名的单词,那就更难了:

(re-seq #"[?????-?]" "???????????????????????")

Run Code Online (Sandbox Code Playgroud)

谢谢!

Answer 1

j-g*_*tus 15

我担心,无法帮助swank或Emacs.我在NetBeans上使用Enclojure,它在那里运行良好.

关于匹配:正如亚历克斯所说,\w不适用于非英语字符,甚至不适用于西欧的扩展拉丁字符集:

(re-seq #"\w+" "prøve")  =>("pr" "ve")   ; Norwegian
(re-seq #"\w+" "mañana") => ("ma" "ana") ; Spanish
(re-seq #"\w+" "große")  => ("gro" "e")  ; German
(re-seq #"\w+" "plaît")  => ("pla" "t")  ; French

Run Code Online (Sandbox Code Playgroud)

\ w跳过扩展的字符.使用[(?u)\w]+相反没有区别,与日本人相同.

但请参阅此正则表达式引用:\p{L}匹配Letter类中的任何Unicode字符,因此它实际上适用于挪威语

(re-seq #"\p{L}+" "prøve")
=> ("prøve")

Run Code Online (Sandbox Code Playgroud)

以及日本人(至少我想是这样,我不能读它,但它似乎在球场):

(re-seq #"\p{L}+" "??? ? ?? ? ? ???? ? ?? ?? ??? ???")
=> ("???" "?" "??" "?" "?" "????" "?" "??" "??" "??" "??")

Run Code Online (Sandbox Code Playgroud)

还有很多其他选项,比如组合变音符号和诸如此类的匹配,请查看参考.

编辑:有关Java中的Unicode的更多信息

使用Unicode时,可以快速参考其他可能感兴趣的点.

幸运的是,Java通常能够以正确的位置和平台编码方式读取和写入文本,但有时您需要覆盖它.

这都是Java,大部分内容都没有Clojure包装(至少还没有).

java.nio.charset.Charset - 表示像US-ASCII,ISO-8859-1,UTF-8这样的字符集
java.io.InputStreamReader - 允许您指定在读取时从字节转换为字符串的字符集.有一个相应的OutputStreamWriter.
java.lang.String - 允许您在从字节数组创建String时指定字符集.
java.lang.Character - 具有获取字符的Unicode类别以及在Java字符和Unicode代码点之间进行转换的方法.
java.util.regex.Pattern - regexp模式的规范,包括Unicode块和类别.

Java字符/字符串在内部是UTF-16.该char类型(以及其包装字)为16位,这是不足够代表所有Unicode的,所以很多非拉丁文字需要两个字符来代表一个符号.

在处理非拉丁语Unicode时,使用code points而不是字符通常更好.代码点是一个表示为int的Unicode字符/符号.String和Character类具有在Java字符和Unicode代码点之间进行转换的方法.

unicode.org - Unicode标准和代码图表.

我把它放在这里,因为我偶尔需要这些东西,但实际上不足以记住从一次到下一次的细节.对我未来的自我的一个注释,对于其他开始使用国际语言和编码的人来说也许是有用的.

太好了!是的,\ p {L}开关正是我想要的,我真的有点惊讶它对日本人有用.谢谢你的链接. (2认同)

Answer 2

Leo*_*nel 8

我在这里回答半个问题:

如何在与Clojure交谈时将emacs/slime/swank设置为使用UTF-8,或者在命令行REPL中使用UTF-8？

更具互动性的方式:

Mx custom-group
"煤泥口齿不清"
找到粘液编码系统的选项,然后选择utf-8-unix.保存这个,以便Emacs在你的下一个会话中选择它.

或者将它放在你的.emacs中:

(custom-set-variables '(slime-net-coding-system (quote utf-8-unix)))

Run Code Online (Sandbox Code Playgroud)

这就是交互式菜单无论如何都会做的.

适用于Emacs 23并可在我的机器上运行

归档时间：	15 年，8 月前
查看次数：	5544 次
最近记录：	9 年前