在 python 中为波斯语使用 unicode

Question

在 python 中为波斯语使用 unicode

我正在编写一个脚本来从语料库文件中读取并查找后缀。由于语料库中有波斯语单词，它是 UTF-8 编码的，但是当我使用波斯语后缀进行搜索时，我没有得到任何结果，而另一方面，英语结果可以恢复正常。

from __future__ import unicode_literals
import nltk
import sys


for line in open("corpus.txt"):
for word in line.split():
     if word.endswith('?'):
        print (word)

Run Code Online (Sandbox Code Playgroud)

Answer 1

Ben*_*son 5

在 Python 3 中，你可以只传递encoding=utf-8给open：

with open("corpus.txt", encoding="utf-8") as fp:
    for line in fp:
        for word in line.split():
            process(word)

Run Code Online (Sandbox Code Playgroud)

在 Python 2 中，您需要执行以下操作：

import codecs
with codecs.open("corpus.txt", encoding="utf-8") as fp:
    for line in fp:
        for word in line.split():
            process(word)

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，9 月前
查看次数：	2564 次
最近记录：	10 年，9 月前