我尝试用mahout部署20-新闻组示例,似乎工作正常.出于好奇,我想深入了解模型统计数据,
例如:bayes-model目录包含以下子目录,
training-tfIdf trainer-thetaNormalizer培训师权重
其中包含part-0000文件.我想阅读文件的内容以便更好地理解,cat命令似乎不起作用,它打印一些垃圾.
任何帮助表示赞赏.
谢谢
'part-00000'文件由Hadoop创建,采用Hadoop SequenceFile
格式,包含特定于Mahout的值.你无法打开它们作为文本文件,不.您可以SequenceFileDumper
在Mahout中找到将尝试将内容作为文本输出到stdout 的实用程序类.
至于这些值的开头是什么,它们是Mahout执行的基于多阶段Hadoop的计算的中间结果.您可以阅读代码以更好地了解这些代码.例如,"tfidf"目录包含与术语频率相关的中间计算.
归档时间: |
|
查看次数: |
2715 次 |
最近记录: |