python unicode正则表达式

Question

python unicode正则表达式

我用下面的代码读了一个文件,然后我想用re库在文件中找到单词.该文件包含土耳其语字符.所以我使用utf-8解码文件.图书馆不懂土耳其语.下面的代码不起作用.

    text= unicodedata.normalize("NFKD",codecs.open(os.path.abspath("texts/kopru1.txt"),"rb").read().decode("utf-8"))
    text=text.replace("\r\n"," ").lower()
    aa= re.findall(ur"[a-zç??öü]+", text,re.UNICODE)

Run Code Online (Sandbox Code Playgroud)

虽然" ayşe "是一个词,但这个词似乎是" ays "和" e ".

Answer 1

kqr*_*kqr 5

使用转义序列\w,意思是"任何类型的字母".只是从维基百科得到一个例句:

>>> text = u'Türkî-i çin (güzel güne?) terkiplerinde de gördü?ümüz'
>>> re.findall(r'\w+', text, re.UNICODE)
['Türkî', 'i', 'çin', 'güzel', 'güne?', 'terkiplerinde', 'de', 'gördü?ümüz']

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，7 月前
查看次数：	104 次
最近记录：	12 年，7 月前