将CSV转换为SequenceFile

Question

将CSV转换为SequenceFile

我有一个CSV文件,我想将其转换为SequenceFile,我最终会用它来创建NamedVectors以用于群集作业.我一直在使用seqdirectory命令尝试创建一个SequenceFile,然后使用-nv选项将该输出提供给seq2sparse以创建NamedVectors.看起来这是一个大向量作为输出,但我最终希望我的CSV的每一行成为NamedVector.我哪里错了？

Answer 1

小智 2

seqdirectory命令将每个文件视为一个文档，因此实际上，您只有一个文档，因此您只能得到一个向量。为了使其正常工作，您可以将 CSV 文件的每一行本身作为一个文件，其中文档的键是文件的名称，值是其内容。尽管如此，如果您的语料库很大，那么这是非常不切实际的，因为磁盘读取和写入可能会变得非常慢。

实际上，您最好点击我在此评论中分享的链接

归档时间：	13 年，6 月前
查看次数：	7230 次
最近记录：	13 年，6 月前