alv*_*vas 9 translation nlp nltk pos-tagger mecab
有人可以在MeCab默认输出上启发我吗?MeCab输出的注释是什么,我在哪里可以找到morpho分析仪的标签集
任何人都可以从MeCab中解读这个输出吗?
<s>
??????????? ??????????? ??????????? ??-??
? ? ? ??-???-??
? ? ? ??-???
?? ???? ?? ??-??
?? ?? ?? ??-?? ???????? ???
??? ???? ???? ??-?? ?? ???
? ? ?? ??-?? ????? ???
? ? ? ??? ???? ???
?? ???? ?? ??-??
? ? ? ??-???-??
? ? ? ??-???
?? ???? ?? ??-????
?? ?? ?? ??-?? ????? ???
? ?? ? ??-??
?? ??? ??? ??-?? ?? ???
? ? ? ??-???-??
?? ?? ?? ??-?? ????? ???
?? ?? ?? ??? ????? ???
? ? ? ??-??
</s>
Run Code Online (Sandbox Code Playgroud)
bur*_*mon 11
示例中的输出格式似乎是chasen2,它在dicrc文件中定义.那将是:
; ChaSen (include spaces)
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen2 = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen2 = EOS\n
Run Code Online (Sandbox Code Playgroud)
对于普通节点格式,那将是:
1. surface value, including any whitespace
2. \t
3. reading
4. \t
5. root form
6. \t
7. part of speech
8. part of speech, subtype 1
9. part of speech, subtype 2
10. part of speech, subtype 3
11. \t
12. conjugation
13. \t
14. inflection
15. newline
Run Code Online (Sandbox Code Playgroud)
项目7到10是连字符分隔的.
有关详细信息,请参阅mecab 的出力フォーマット文档.
编辑:更新了MeCab输出格式说明页面的链接.
| 归档时间: |
|
| 查看次数: |
1417 次 |
| 最近记录: |