将CSV转换为SequenceFile

Ali*_*son 5 hadoop mahout sequencefile

我有一个CSV文件,我想将其转换为SequenceFile,我最终会用它来创建NamedVectors以用于群集作业.我一直在使用seqdirectory命令尝试创建一个SequenceFile,然后使用-nv选项将该输出提供给seq2sparse以创建NamedVectors.看起来这是一个大向量作为输出,但我最终希望我的CSV的每一行成为NamedVector.我哪里错了?

小智 2

seqdirectory命令将每个文件视为一个文档,因此实际上,您只有一个文档,因此您只能得到一个向量。为了使其正常工作,您可以将 CSV 文件的每一行本身作为一个文件,其中文档的是文件的名称,是其内容。尽管如此,如果您的语料库很大,那么这是非常不切实际的,因为磁盘读取和写入可能会变得非常慢。

实际上,您最好点击我在此评论中分享的链接