Spacy日语分词器

AKS*_*HAN 5 python nlp cjk spacy

我正在尝试使用Spacy的日语标记器。

import spacy
Question= '????? ??????'
nlp(Question.decode('utf8'))
Run Code Online (Sandbox Code Playgroud)

我收到以下错误,

TypeError: Expected unicode, got spacy.tokens.token.Token
Run Code Online (Sandbox Code Playgroud)

有想法该怎么解决这个吗?

谢谢!

pol*_*m23 1

我不确定你为什么会遇到这个特定的错误,但自从你发布这个问题以来,日语支持已经得到了改进,并且它应该适用于最新版本的 spaCy。对于日语支持,您还需要自己安装 MeCab 和其他一些依赖项,请参阅此处以获取详细指南。

\n\n

实际代码如下所示:

\n\n
import spacy\n\nja = spacy.blank(\'ja\')\nprint(ja(\'\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e\xe3\x81\xa7\xe3\x81\x99\xe3\x82\x88\'))\n
Run Code Online (Sandbox Code Playgroud)\n\n

如果您仍然遇到问题,请随时在 Github 上提出问题。

\n