Python:如何检查unicode字符串是否包含一个cased字符？

Question

Python:如何检查unicode字符串是否包含一个cased字符？

Alb*_*ert 8 python unicode lowercase uppercase

我正在做一个过滤器,其中我检查unicode(utf-8编码)字符串是否不包含大写字符(在所有语言中).如果字符串根本不包含任何套接字符,那对我来说没问题.

例如:'你好!' 不会通过过滤器,但"!" 应该通过过滤器,因为"!" 不是一个套装的角色.

我打算使用islower()方法,但在上面的例子中,"!".islower()将返回False.

根据Python Docs,"如果unicode字符串的套接字符全部为小写且字符串包含至少一个套接字符,则python unicode方法islower()返回True,否则返回False."

由于当字符串不包含任何套接字符时,该方法也返回False,即."!",我想检查字符串是否包含任何套接字符.

像这样......

string = unicode("!@#$%^", 'utf-8')

#check first if it contains cased characters
if not contains_cased(string):
     return True

return string.islower():

Run Code Online (Sandbox Code Playgroud)

有关contains_cased()函数的任何建议吗？

或者可能采用不同的实施方法？

谢谢!

Answer 1

Ale*_*lli 8

import unicodedata as ud

def contains_cased(u):
  return any(ud.category(c)[0] == 'L' for c in u)

Run Code Online (Sandbox Code Playgroud)

-1将东亚人物视为"套".看我的回答. (2认同)

Answer 2

Joh*_*hin 6

以下是Unicode字符类别的完整独家新闻.

信件类别包括:

Ll -- lowercase
Lu -- uppercase
Lt -- titlecase
Lm -- modifier
Lo -- other

Run Code Online (Sandbox Code Playgroud)

注意Ll <-> islower(); 同样地Lu;(Lu or Lt) <-> istitle()

您可能希望阅读关于套管的复杂讨论,其中包括对Lm字母的一些讨论.

盲目地将所有"信件"视为套管是明显错误的.该Lo类别包括BMP中的45301个代码点(使用Python 2.6计算).其中很大一部分是Hangul Syllables,CJK表意文字和其他东亚人物 - 很难理解他们如何被视为"套装".

您可能希望根据您期望的"套管字符"的(未指定的)行为来考虑替代定义.这是一个简单的第一次尝试:

>>> cased = lambda c: c.upper() != c or c.lower() != c
>>> sum(cased(unichr(i)) for i in xrange(65536))
1970
>>>

Run Code Online (Sandbox Code Playgroud)

有趣的是,有1216 x Ll和937 x Lu,总共2153 ...进一步调查Ll和Lu的真正意义.

归档时间：	15 年，6 月前
查看次数：	4966 次
最近记录：	15 年，5 月前