Hav*_*nar 4 hadoop impala apache-spark
我正在开发一个NRT解决方案,要求我经常更新Impala表上的元数据.
目前,此失效是在我的spark代码运行后完成的.我希望通过直接从我的Spark代码执行此刷新/无效来加快速度.
什么是最有效的方法?
REFRESH
和INVALIDATE METADATA
命令特定于Impala.
您必须连接到Impala守护程序才能运行这些 - 这会触发刷新Impala特定的元数据缓存(在您的情况下,您可能只需要REFRESH
每个分区中的文件列表,而不是批量INVALIDATE
重建从头开始的所有分区及其所有文件的列表)
您可以使用Spark SqlContext
通过JDBC连接到Impala并读取数据 - 但不能运行任意命令.该死的.所以你回到了基础:
*.*.extraClassPath
属性中的所有JARREFRESH somedb.sometable
) - 这很难希望谷歌会发现如JDBC/Scala代码一些例子这一个
归档时间: |
|
查看次数: |
4440 次 |
最近记录: |