如何在 PySpark 应用程序中读取和写入 Google Cloud Bigtable 中的数据?

Rev*_*van 5 apache-spark pyspark google-cloud-bigtable google-cloud-dataproc

我在 Google Cloud Dataproc 集群上使用 Spark,我想在 PySpark 作业中访问 Bigtable。我们是否有适用于 Spark 的 Bigtable 连接器,例如 Google BigQuery 连接器?

我们如何从 PySpark 应用程序访问 Bigtable?

Pat*_*lay 6

Cloud Bigtable 通常最好使用Apache HBase API从 Spark 访问。

HBase 目前仅提供 Hadoop MapReduce I/O 格式。这些可以使用这些SparkContext.newAPIHadoopRDD方法从 Spark(或 PySpark)访问。但是,将记录转换为 Python 中可用的内容是很困难的。

HBase 正在开发 Spark SQL API,但尚未在发布版本中集成。Hortonworks 有一个Spark HBase 连接器,但它针对 Spark 1.6(需要 Cloud Dataproc 1.0 版)进行编译,我没有使用过它,所以我不能说它使用起来有多容易。

或者,您可以使用基于 Python 的 Bigtable 客户端,并简单地使用 PySpark 进行并行处理。