cha*_*rvi 2 python regex tamil python-2.7
我想知道 Unicode 字符串(泰米尔语)中有多少个字符,然后检查字符 1 和字符 2 是否出现特定情况。
我能够将单词拆分为字符,但我不知道如何使用单词长度逐个字符地遍历它们。
例如:单词:“????”。
它应该不返回 3 个字符,并且我应该能够将 word[0] 打印为 '?',word[1] 打印为 '?' 和单词 [2] 为“??”。
我想检查:
if word[0] is a vowel:
if word[1] is "?":
then print word[0]+word[1]+word[3] (as ????)
else:
print word[0]
Run Code Online (Sandbox Code Playgroud)
我想不使用字符进行遍历,如果 no.of.char 是 3,那么 i=0 应该可以帮助我处理 '?'。
看到很多关于Unicode字符处理和长度处理的问题。但它们要么返回字节长度,要么给出不同的结果。所以我很困惑。
我用于按字符拆分它们的代码:
for line in f.readlines():
letters = utf8.get_letters(line)
for letter in letters:
ff.write(unicode(letter))
ff.write(' ')
Run Code Online (Sandbox Code Playgroud)
示例输入文件:
?????
??????
?????????
示例输出文件:
? ?? ??
? ?? ? ??
? ? ?? ?? ??
包裹
pip install Open-Tamil
Run Code Online (Sandbox Code Playgroud)
代码
from tamil import utf8
string = u"????"
letters = utf8.get_letters(string)
print(len(letters))
# 3. Not 4.
print(letters)
# [u'\u0b8e', u'\u0b83', u'\u0b95\u0bc1']
for letter in letters:
print(letter)
# ?
# ?
# ??
Run Code Online (Sandbox Code Playgroud)