如何在 PySpark 应用程序中读取和写入 Google Cloud Bigtable 中的数据？

Question

我在 Google Cloud Dataproc 集群上使用 Spark，我想在 PySpark 作业中访问 Bigtable。我们是否有适用于 Spark 的 Bigtable 连接器，例如 Google BigQuery 连接器？

我们如何从 PySpark 应用程序访问 Bigtable？

Answer 1

Cloud Bigtable 通常最好使用Apache HBase API从 Spark 访问。

HBase 目前仅提供 Hadoop MapReduce I/O 格式。这些可以使用这些SparkContext.newAPIHadoopRDD方法从 Spark（或 PySpark）访问。但是，将记录转换为 Python 中可用的内容是很困难的。

HBase 正在开发 Spark SQL API，但尚未在发布版本中集成。Hortonworks 有一个Spark HBase 连接器，但它针对 Spark 1.6（需要 Cloud Dataproc 1.0 版）进行编译，我没有使用过它，所以我不能说它使用起来有多容易。

或者，您可以使用基于 Python 的 Bigtable 客户端，并简单地使用 PySpark 进行并行处理。