什么是MeCab输出和标签集?

alv*_*vas 9 translation nlp nltk pos-tagger mecab

有人可以在MeCab默认输出上启发我吗?MeCab输出的注释是什么,我在哪里可以找到morpho分析仪的标签集

http://mecab.sourceforge.net/

任何人都可以从MeCab中解读这个输出吗?

<s>
??????????? ??????????? ??????????? ??-??       
?   ?   ?   ??-???-??       
?   ?   ?   ??-???      
??  ????    ??  ??-??       
??  ??  ??  ??-??   ????????    ???
??? ????    ????    ??-??   ??  ???
?   ?   ??  ??-??   ?????   ???
?   ?   ?   ??? ????    ???
??  ????    ??  ??-??       
?   ?   ?   ??-???-??       
?   ?   ?   ??-???      
??  ????    ??  ??-????     
??  ??  ??  ??-??   ?????   ???
?   ??  ?   ??-??       
??  ??? ??? ??-??   ??  ???
?   ?   ?   ??-???-??       
??  ??  ??  ??-??   ?????   ???
??  ??  ??  ??? ?????   ???
?   ?   ?   ??-??       
</s>
Run Code Online (Sandbox Code Playgroud)

bur*_*mon 11

示例中的输出格式似乎是chasen2,它在dicrc文件中定义.那将是:

; ChaSen (include spaces)
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen2  = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen2  = EOS\n
Run Code Online (Sandbox Code Playgroud)

对于普通节点格式,那将是:

1. surface value, including any whitespace
2. \t
3. reading
4. \t
5. root form
6. \t
7. part of speech
8. part of speech, subtype 1
9. part of speech, subtype 2
10. part of speech, subtype 3
11. \t
12. conjugation
13. \t
14. inflection
15. newline
Run Code Online (Sandbox Code Playgroud)

项目7到10是连字符分隔的.

有关详细信息,请参阅mecab 的出力フォーマット文档.

编辑:更新了MeCab输出格式说明页面的链接.