我们有一个中等规模的 clickhouse 集群,大约有 30 个节点,并且想要收集其使用情况统计数据。我们希望使用针对系统表的计划查询来做到这一点,但使用普通查询只能获取您恰好连接到的一个节点的信息,并且创建分布式表仅适用于 *log 系统表。我们可以循环节点,但不想这样做。有没有一种方法可以在一个查询中获取系统表的所有实例,例如 system.parts?
我正在研究一个简单的Spark脚本,并遇到将数据放到我想要的问题,并使工作正常工作的问题.具体来说,我需要在将数据帧注册到临时表时指定表的数据库.
df_del_records,df_add_records,df_exclusion_records=get_new_records(dff)
df_del_records.registerTempTable("db.update_deletes_temp_table")
df_add_records.registerTempTable("db.update_adds_temp_table")
df_exclusion_records.registerTempTable("db.exclusions_temp_table")
sqlContext.sql("insert overwrite table db.automated_quantity_updates select * from db.update_deletes_temp_table")
sqlContext.sql("insert into table db.automated_quantity_updates select * from db.update_adds_temp_table")
sqlContext.sql("insert into table db.exclusions select * from db.exclusions_temp_table")
Run Code Online (Sandbox Code Playgroud)
上面的代码运行没有错误,但不会产生任何结果.删除数据库会产生结果,但这在生产中不起作用,因为必须存储临时表的数据库不是Spark正在使用的默认值.如何在Spark 1.6中将临时表注册到临时表时,临时表需要指定哪个数据库?