Ill*_*lSc 3 python unicode ascii information-retrieval nltk
我正在为我的项目使用NLTK.但是,如果存在像'•'这样的非ascii词.NLTK无法对其进行标记.我正在使用nltk.word_tokenize标记器.如何从整个语料库中删除此类单词或使标记生成器识别出这些单词?
使用以下代码从您的语料库中删除nonascii:
ip=open(nonascii.txt,'r')
#Edit should be in w mode
op=open(ascii.txt,'w')
for line in ip:
line=line.strip().decode("ascii","ignore").encode("ascii")
if line=="":continue
op.write(line)
ip.close()
op.close()
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1285 次 |
| 最近记录: |