Spacy日语分词器

Question

我正在尝试使用Spacy的日语标记器。

import spacy
Question= '????? ??????'
nlp(Question.decode('utf8'))

我收到以下错误，

TypeError: Expected unicode, got spacy.tokens.token.Token

有想法该怎么解决这个吗？

谢谢！

Answer 1

我不确定你为什么会遇到这个特定的错误，但自从你发布这个问题以来，日语支持已经得到了改进，并且它应该适用于最新版本的 spaCy。对于日语支持，您还需要自己安装 MeCab 和其他一些依赖项，请参阅此处以获取详细指南。

\n\n

实际代码如下所示：

\n\n

import spacy\n\nja = spacy.blank(\'ja\')\nprint(ja(\'\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e\xe3\x81\xa7\xe3\x81\x99\xe3\x82\x88\'))\n

如果您仍然遇到问题，请随时在 Github 上提出问题。

\n