小编Anj*_*nji的帖子

如何将增量数据加载到另一个cassandra节点

我的目标是每周同步2个独立的Cassandra节点(基于调度).问题:

  1. 我将拍摄快照并传输快照文件并将其复制到另一个Cassandra表节点中.

  2. 我已经启用incremental_backup = true所以下次我只想将更新的值同步到其他Cassandra节点.那有什么办法吗?和备份时要考虑的主要事项是什么?

我正在做什么表 - > snapshot-> snapshot_name-> scp所有文件 - >另一个cassandra服务器表 - > nodetool刷新 - >给我所有的数据

table-> backup-> scp所有文件 - >另一个cassandra服务器表 - > nodetool刷新 - >通过我的错误

ReadFailure: Error from server: code=1300 [Replica(s) failed to execute read] message="Operation failed - received 0 responses and 1 failures" info={'failures': 1, 'received_responses': 0, 'required_responses': 1, 'consistency': 'ONE'}
Run Code Online (Sandbox Code Playgroud)

cassandra-3.0

6
推荐指数
0
解决办法
258
查看次数

使用Spark DataFrame将数据插入Cassandra表

我正在使用Scala版本2.10.5 Cassandra 3.0和Spark 1.6.我想将数据插入cassandra所以我尝试了基本的例子

scala> val collection = sc.parallelize(Seq(("cat", 30), ("fox", 40)))
scala> collection.saveToCassandra("test", "words", SomeColumns("word", "count"))
Run Code Online (Sandbox Code Playgroud)

哪些Works和能够将数据插入到Cassandra中.所以我有一个csv文件,我想通过匹配模式插入到Cassandra表中

val person = sc.textFile("hdfs://localhost:9000/user/hduser/person")
import org.apache.spark.sql._
val schema =  StructType(Array(StructField("firstName",StringType,true),StructField("lastName",StringType,true),StructField("age",IntegerType,true)))
val rowRDD = person.map(_.split(",")).map(p => org.apache.spark.sql.Row(p(0),p(1),p(2).toInt))
val personSchemaRDD = sqlContext.applySchema(rowRDD, schema)
 personSchemaRDD.saveToCassandra
Run Code Online (Sandbox Code Playgroud)

当我使用SaveToCassndra时,我得到saveToCassandra不是personSchemaRDD的一部分.所以教会以不同的方式尝试

 df.write.format("org.apache.spark.sql.cassandra").options(Map( "table" -> "words_copy", "keyspace" -> "test")).save()
Run Code Online (Sandbox Code Playgroud)

但是无法连接到ip上的cassandra:port.can任何人告诉我最好的方法.我需要定期从文件中将数据保存到cassandra.

scala apache-spark spark-cassandra-connector

5
推荐指数
1
解决办法
1万
查看次数