我用下面的代码读了一个文件,然后我想用re库在文件中找到单词.该文件包含土耳其语字符.所以我使用utf-8解码文件.图书馆不懂土耳其语.下面的代码不起作用.
text= unicodedata.normalize("NFKD",codecs.open(os.path.abspath("texts/kopru1.txt"),"rb").read().decode("utf-8"))
text=text.replace("\r\n"," ").lower()
aa= re.findall(ur"[a-zç??öü]+", text,re.UNICODE)
Run Code Online (Sandbox Code Playgroud)
虽然" ayşe "是一个词,但这个词似乎是" ays "和" e ".
使用转义序列\w,意思是"任何类型的字母".只是从维基百科得到一个例句:
>>> text = u'Türkî-i çin (güzel güne?) terkiplerinde de gördü?ümüz'
>>> re.findall(r'\w+', text, re.UNICODE)
['Türkî', 'i', 'çin', 'güzel', 'güne?', 'terkiplerinde', 'de', 'gördü?ümüz']
Run Code Online (Sandbox Code Playgroud)