oge*_*gen 11 hbase scala apache-spark google-cloud-bigtable google-cloud-dataproc
我们的堆栈由Google Data Proc(Spark 2.0)和Google BigTable(HBase 1.2.0)组成,我正在寻找使用这些版本的连接器.
对于我找到的连接器,我不清楚Spark 2.0和新的DataSet API支持:
该项目使用SBT在Scala 2.11中编写.
谢谢你的帮助
更新:SHC现在似乎可以与Spark 2和Table API一起使用.请参阅https://github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/scala/bigtable-shc
原始答案:
我不相信任何这些(或任何其他现有连接器)将完成您今天想要的所有工作.
我建议只使用HBase MapReduce API和RDD方法,如newAPIHadoopRDD(或者可能是spark-hbase-connector?).然后手动将RDD转换为DataSet.在Scala或Java中,这种方法比Python更容易.
这是HBase社区正在努力改进的领域,Google Cloud Dataproc将在这些改进发生时将其纳入其中.
| 归档时间: |
|
| 查看次数: |
8768 次 |
| 最近记录: |