使用nltk标记unicode

roo*_*oot 18 python unicode tokenize nltk

我有使用utf-8编码的文本文件,其中包含'ö','ü'等字符.我想解析这些文件的文本形式,但我无法让tokenizer正常工作.如果我使用标准的nltk标记器:

f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk'
text = f.read()
f.close
items = text.decode('utf8')
a = nltk.word_tokenize(items)
Run Code Online (Sandbox Code Playgroud)

输出: [u'\ufeff', u'm', u'\xfc', u'sli', u'p', u'\xf6', u'\xf6', u'k', u'r', u'\xe4', u'\xe4', u'k']

Punkt tokenizer似乎做得更好:

f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk'
text = f.read()
f.close
items = text.decode('utf8')
a = PunktWordTokenizer().tokenize(items)
Run Code Online (Sandbox Code Playgroud)

输出: [u'\ufeffm\xfcsli', u'p\xf6\xf6k', u'r\xe4\xe4k']

在我无法弄清楚的第一个令牌之前仍然有'\ ufeff'(不是我不能删除它).我究竟做错了什么?非常感谢.

Sha*_*hin 20

\uFEFFchar 更可能是从文件读取的内容的一部分.我怀疑它是由tokeniser插入的.\uFEFF在文件的开头是不推荐使用的字节顺序标记形式.如果它出现在任何其他地方,则将其视为零宽度非中断空间.

该文件是由Microsoft记事本编写的吗?从编解码器模块文档:

为了提高可以检测到UTF-8编码的可靠性,Microsoft为其Notepad程序发明了一种UTF-8(Python 2.5称为"utf-8-sig")的变体:在写入任何Unicode字符之前该文件是一个UTF-8编码的BOM(看起来像一个字节序列:0xef,0xbb,0xbf).

请尝试使用读取文件codecs.open().请注意"utf-8-sig"消耗BOM 的编码.

import codecs
f = codecs.open('C:\Python26\text.txt', 'r', 'utf-8-sig')
text = f.read()
a = nltk.word_tokenize(text)
Run Code Online (Sandbox Code Playgroud)

实验:

>>> open("x.txt", "r").read().decode("utf-8")
u'\ufeffm\xfcsli'
>>> import codecs
>>> codecs.open("x.txt", "r", "utf-8-sig").read()
u'm\xfcsli'
>>> 
Run Code Online (Sandbox Code Playgroud)


小智 13

您应该确保将unicode字符串传递给nltk tokenizer.我得到了以下两个令牌化器的字符串相同的标记:

import nltk
nltk.wordpunct_tokenize('müsli pöök rääk'.decode('utf8'))
# output : [u'm\xfcsli', u'p\xf6\xf6k', u'r\xe4\xe4k']

nltk.word_tokenize('müsli pöök rääk'.decode('utf8'))
# output: [u'm\xfcsli', u'p\xf6\xf6k', u'r\xe4\xe4k']
Run Code Online (Sandbox Code Playgroud)