我应该使用哪种HBase HBase连接器？

Question

我们的堆栈由Google Data Proc(Spark 2.0)和Google BigTable(HBase 1.2.0)组成,我正在寻找使用这些版本的连接器.

对于我找到的连接器,我不清楚Spark 2.0和新的DataSet API支持:

该项目使用SBT在Scala 2.11中编写.

谢谢你的帮助

Answer 1

原始答案:

我不相信任何这些(或任何其他现有连接器)将完成您今天想要的所有工作.

我建议只使用HBase MapReduce API和RDD方法,如newAPIHadoopRDD(或者可能是spark-hbase-connector？).然后手动将RDD转换为DataSet.在Scala或Java中,这种方法比Python更容易.

这是HBase社区正在努力改进的领域,Google Cloud Dataproc将在这些改进发生时将其纳入其中.

看起来hortonworks发布了Spark 2的一个版本:https://github.com/hortonworks-spark/shc/tree/v1.0.1-2.0 (2认同)