小编Krz*_*asa的帖子

将大量数据从Cassandra导出到CSV

我正在使用Cassandra 2.0.9存储相当大的数据,比如100Gb,在一个列族中.我想快速将此数据导出为CSV.我试过了:

  • sstable2json - 它生成相当大的json文件,难以解析 - 因为工具将数据放在一行并使用复杂的模式(例如300Mb数据文件=〜2Gb json),转储需要花费大量时间,而Cassandra喜欢改变源文件名根据其内部机制
  • COPY - 在相当快的EC2实例上导致大量记录的超时
  • 捕获 - 如上所述,导致超时
  • 用分页读取 - 我使用了timeuuid,但它每秒返回大约1,5k条记录

我使用Amazon Ec2实例,具有快速存储,15 Gb RAM和4个内核

对于从Cassandra到CSV的数据导出千兆字节有什么更好的选择吗?

csv bigdata cassandra cassandra-2.0

20
推荐指数
1
解决办法
1万
查看次数

标签 统计

bigdata ×1

cassandra ×1

cassandra-2.0 ×1

csv ×1