Cassandra/Spark 显示不正确的大表条目数

Question

Cassandra/Spark 显示不正确的大表条目数

far*_*een 3 cassandra apache-spark pyspark spark-cassandra-connector

我正在尝试使用 spark 来处理大型 cassandra 表（约 4.02 亿个条目和 84 列），但得到的结果不一致。最初的要求是将一些列从这个表复制到另一个表。复制数据后，我注意到新表中的某些条目丢失了。为了验证我是否对大型源表进行了计数，但每次都得到不同的值。我在一个较小的表（约 700 万条记录）上尝试了查询，结果很好。

最初，我尝试使用 pyspark 进行计数。这是我的 pyspark 脚本：

spark = SparkSession.builder.appName("Datacopy App").getOrCreate() 
df = spark.read.format("org.apache.spark.sql.cassandra").options(table=sourcetable, keyspace=sourcekeyspace).load().cache() 
df.createOrReplaceTempView("data") 
query = ("select count(1) from data " ) 
vgDF = spark.sql(query) 
vgDF.show(10)

Run Code Online (Sandbox Code Playgroud)

Spark提交命令如下：

~/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --master spark://10.128.0.18:7077 --packages datastax:spark-cassandra-connector:2.0.1-s_2.11 --conf spark.cassandra.connection.host="10.128.1.1,10.128.1.2,10.128.1.3" --conf "spark.storage.memoryFraction=1" --conf spark.local.dir=/media/db/ --executor-memory 10G --num-executors=6 --executor-cores=2 --total-executor-cores 18 pyspark_script.py

Run Code Online (Sandbox Code Playgroud)

上述火花提交过程需要大约 90 分钟才能完成。我跑了三遍，这是我得到的计数：

Spark 迭代 1：402273852
Spark 迭代 2：402273884
Spark 迭代 3：402274209

Spark 在整个过程中没有显示任何错误或异常。我在 cqlsh 中运行了三次相同的查询，再次得到不同的结果：

Cqlsh 迭代 1：402273598
Cqlsh 迭代 2：402273499
Cqlsh 迭代 3：402273515

我无法找出为什么我从同一个查询中得到不同的结果。Cassandra 系统日志 (/var/log/cassandra/system.log) 只显示了一次以下错误消息：

ERROR [SSTableBatchOpen:3] 2018-02-27 09:48:23,592 CassandraDaemon.java:226 - Exception in thread Thread[SSTableBatchOpen:3,5,main]
java.lang.AssertionError: Stats component is missing for sstable /media/db/datakeyspace/sensordata1-acfa7880acba11e782fd9bf3ae460699/mc-58617-big
        at org.apache.cassandra.io.sstable.format.SSTableReader.open(SSTableReader.java:460) ~[apache-cassandra-3.9.jar:3.9]
        at org.apache.cassandra.io.sstable.format.SSTableReader.open(SSTableReader.java:375) ~[apache-cassandra-3.9.jar:3.9]
        at org.apache.cassandra.io.sstable.format.SSTableReader$4.run(SSTableReader.java:536) ~[apache-cassandra-3.9.jar:3.9]
        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) ~[na:1.8.0_131]
        at java.util.concurrent.FutureTask.run(FutureTask.java:266) ~[na:1.8.0_131]
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) ~[na:1.8.0_131]
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) [na:1.8.0_131]
        at java.lang.Thread.run(Thread.java:748) [na:1.8.0_131]

Run Code Online (Sandbox Code Playgroud)

版本：

卡桑德拉 3.9。
火花 2.1.0。
Datastax 的 spark-cassandra-connector 2.0.1
斯卡拉 2.11 版

簇：

Spark 设置有 3 个工作节点和 1 个主节点。
3 个工作节点还安装了一个 cassandra 集群。
每个工作节点有 8 个 CPU 内核和 40 GB RAM。

任何帮助将不胜感激。

Answer 1

小智 5

Spark Cassandra 连接器默认读取一致性为“LOCAL_ONE”，默认写入一致性为“LOCAL_QUORUM”，因此可以使用该默认值在完全修复之前读取部分数据。您可以为无法写入数据的节点读取“ONE”，但这不是错误，因为其他 2 个副本成功。因此，您应该将 BOTH 级别设置为 QUORUM 或将其中之一设置为 ALL

config("spark.cassandra.input.consistency.level", "LOCAL_QUORUM").
config("spark.cassandra.output.consistency.level", "LOCAL_QUORUM").

Run Code Online (Sandbox Code Playgroud)

默认的 CQL shell 级别也是 ONE，所以你也应该增加它：

cqlsh> CONSISTENCY QUORUM

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，12 月前
查看次数：	1480 次
最近记录：	7 年，12 月前