Ali*_*son 5 hadoop mahout sequencefile
我有一个CSV文件,我想将其转换为SequenceFile,我最终会用它来创建NamedVectors以用于群集作业.我一直在使用seqdirectory命令尝试创建一个SequenceFile,然后使用-nv选项将该输出提供给seq2sparse以创建NamedVectors.看起来这是一个大向量作为输出,但我最终希望我的CSV的每一行成为NamedVector.我哪里错了?
小智 2
seqdirectory命令将每个文件视为一个文档,因此实际上,您只有一个文档,因此您只能得到一个向量。为了使其正常工作,您可以将 CSV 文件的每一行本身作为一个文件,其中文档的键是文件的名称,值是其内容。尽管如此,如果您的语料库很大,那么这是非常不切实际的,因为磁盘读取和写入可能会变得非常慢。
seqdirectory
实际上,您最好点击我在此评论中分享的链接
归档时间:
13 年,4 月 前
查看次数:
7230 次
最近记录: