标签: character-properties

Unicode字母字符列表

我需要具有http://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabetic中Alphabetic定义的属性的Unicode字符范围列表.但是,无论我如何搜索它们,我都无法在Unicode字符数据库中找到它们.有人可以提供它们的列表,还是只提供具有指定Unicode属性的字符的搜索工具?

unicode alphabetic character-properties

5
推荐指数
2
解决办法
5847
查看次数

Java正则表达式中的POSIX字符等价物

我想在Java中使用这样的正则表达式:[[=a=][=e=][=i=]].

但Java不支持POSIX类[=a=], [=e=] etc.

我怎样才能做到这一点?更准确地说,有没有办法不使用US-ASCII?

java regex posix-ere character-properties

5
推荐指数
2
解决办法
6229
查看次数

使用Unicode分隔符溢出的字符串

我需要在Java中使用“-”作为分隔符来拆分字符串。例如:“单人间-祝您住宿愉快”

根据地区,我有相同的数据以英语和德语显示。因此,我不能使用通常的string.split(“-”)。“-”字符的unicode是8212(dec)或x2014(hex)。如何使用unicode拆分字符串?

java string unicode character-properties

5
推荐指数
2
解决办法
7758
查看次数

在ply的正则表达式中匹配unicode

我匹配标识符,但现在我遇到了问题:我的标识符允许包含unicode字符.因此,旧的做事方式是不够的:

t_IDENTIFIER = r"[A-Za-z](\\.|[A-Za-z_0-9])*"
Run Code Online (Sandbox Code Playgroud)

我的标记语言解析器中,我通过允许除了我明确使用的那些字符之外的所有字符来匹配unicode字符,因为我的标记语言只有两个或三个我需要以这种方式转义的字符.

如何将所有unicode字符与python正则表达式和ply匹配?这也是一个好主意吗?

我想让人们在他们的程序中使用像Ω»«°foo²väliπ这样的标识符作为标识符(变量名等).哎呀!我希望人们可以用他们自己的语言编写程序,如果它是实用的!无论如何,unicode现在在各种各样的地方得到支持,它应该传播.

编辑:POSIX字符类似乎不被python正则表达式识别.

>>> import re
>>> item = re.compile(r'[[:word:]]')
>>> print item.match('e')
None
Run Code Online (Sandbox Code Playgroud)

编辑:更好地解释我需要的东西.我需要一个正则表达式匹配所有unicode可打印字符,但根本不匹配ASCII字符.

编辑:r"\ w"做了我想要的东西,但它不匹配«»,我还需要一个与数字不匹配的正则表达式.

python regex unicode ply character-properties

4
推荐指数
1
解决办法
1695
查看次数

如何在Java中正确编写unicode名字的正则表达式?

我需要编写一个正则表达式,这样我就可以在进一步发送之前替换用户输入中的无效字符.我想我需要string.replaceAll("regex", "replacement")用来做那件事.特定的代码行应该替换所有不是unicode字母的字符.所以这是一个unicode字符的白名单.基本上它正在验证并替换用户名字的无效字符.

到目前为止我发现的是:\p{L}\p{M}但是我不确定如何在regexp中启动它,所以它会像我上面解释的那样工作.这会是一个正则表达式否定的情况吗?

java regex unicode character-properties

4
推荐指数
1
解决办法
5376
查看次数

什么是`unicode groups`和`block range`可以在`\ p {name}`中指定?

是什么 unicode groups,并block ranges可以在字符类中指定\p{name}

例如

\p{IsGreek}
Run Code Online (Sandbox Code Playgroud)

名称和描述清单在哪里?

regex pcre character-properties

4
推荐指数
1
解决办法
1962
查看次数

拉丁字符检查

有一些类似的问题,但没有一个是完全相同或有一个适合我的答案.

我需要一个javascript函数来验证文本字段是否包含所有有效的拉丁字符,所以没有cryllic或中文,只是拉丁语; 特别:

基本拉丁语(不包括C0控制字符),Latin-1(不包括C1控制字符),拉丁语扩展A,拉丁语扩展B和拉丁语扩展附加.此设置对应于Unicode代码点U + 0020至U + 007E,U + 00A0至U + 024F以及U + IE00至U + IEFF

那里的一些答案似乎检查了文本字段中的第一个字符但是错过了其他字符,所以这些都不好.

这是我到目前为止尝试过的(这不起作用!):

var value = 'abcdef' // from text field
var re = '\u0000-\u007F|\u0100-\u017F|\u0180-\u024F|\u1E00-\u1EFF|\u0080-\u00FF'; // latin regexp string
// var re = '\\w+/'; // alternative
if (new RegExp(re).test(value)) {
    result = false;
}
Run Code Online (Sandbox Code Playgroud)

以下类型的工作,但仅适用于第一个字符:

//var re = '\u0000-\u007F|\u0100-\u017F|\u0180-\u024F|\u1E00-\u1EFF|\u0080-\u00FF'; // latin regexp string
// couldn't get the above to work so using the following:
var re = '\\w+';
if (!value.match(re)) {
    message = 'Please enter …
Run Code Online (Sandbox Code Playgroud)

javascript regex unicode character-properties

4
推荐指数
1
解决办法
7929
查看次数

验证Unicode名称

在ASCII中,验证名称并不太难:只需确保所有字符都是按字母顺序排列的.

但是在Unicode(utf-8)中呢?如何确保给定字符串中没有逗号或下划线(ASCII范围之外)?

(理想情况下是Python)

python unicode validation character-properties

3
推荐指数
2
解决办法
1094
查看次数

将Unicode"名称"与JavaScript正则表达式匹配

在JavaScript中,我们可以使用Unicode转义序列匹配单个Unicode代码点或代码点范围,例如:

"A".match(/\u0041/) // => ["A"]
"B".match(/[\u0041-\u007A]/) // => ["B"]
Run Code Online (Sandbox Code Playgroud)

但是,我们如何创建一个正则表达式来匹配一个正确的名称,该名称必须包含使用JavaScript正则表达式的任何Unicode"字母"?有一系列字母吗?JavaScript中的特殊正则表达式序列或字符类?

假设我的网站必须验证可能是拉丁语言的名称,以及希伯来语,西里尔语,日语(片假名,平假名等)在JavaScript中是可行的,或者是委托给后端语言并提供更好的Unicode支持的唯一理智选择?

javascript regex unicode character-properties

3
推荐指数
1
解决办法
3199
查看次数

在Java解释中增加一个字符

我有一个看起来像这样的Java片段:

    char ch = 'A';
    System.out.println("ch = " + ch);
Run Code Online (Sandbox Code Playgroud)

打印:A

然后当我这样做

    ch++; // increment ch
    System.out.println("ch =" + ch);
Run Code Online (Sandbox Code Playgroud)

它现在打印:B

我也试了一下Z,并得到一个[ (空心方块括号)
,并与-并导致以.


这怎么发生的?可能的解释是什么?提前致谢.

java character character-properties

3
推荐指数
1
解决办法
4875
查看次数