小编use*_*966的帖子

用于阿拉伯文本的 Python ISRIStemmer

我在 IDLE(Python) 上运行以下代码,我想输入阿拉伯语字符串并获取它的词干,但实际上它不起作用

>>> from nltk.stem.isri import ISRIStemmer
>>> st = ISRIStemmer()
>>> w= '?????'
>>> join = w.decode('Windows-1256')
>>> print st.stem(join).encode('Windows-1256').decode('utf-8')
Run Code Online (Sandbox Code Playgroud)

运行它的结果是 w 中相同的文本,即 '?????' 这不是词干

但是什么时候执行以下操作:

>>> print st.stem(u'????????')
Run Code Online (Sandbox Code Playgroud)

结果成功并返回'???'的词干

为什么将一些单词传递给 stem() 函数不会返回词干?

python utf-8 arabic stemming

4
推荐指数
2
解决办法
6973
查看次数

标签 统计

arabic ×1

python ×1

stemming ×1

utf-8 ×1