我有一个存储在BigQuery表中的大型数据集,我想将其加载到pypark RDD中以进行ETL数据处理.
我意识到BigQuery支持Hadoop输入/输出格式
https://cloud.google.com/hadoop/writing-with-bigquery-connector
并且pyspark应该能够使用此接口以使用方法"newAPIHadoopRDD"创建RDD.
http://spark.apache.org/docs/latest/api/python/pyspark.html
不幸的是,两端的文档似乎很少,超出了我对Hadoop/Spark/BigQuery的了解.是否有人知道如何做到这一点?
google-bigquery apache-spark google-hadoop pyspark google-cloud-dataproc
根据Dataproc docos,它具有" 与BigQuery的本机和自动集成 ".
我在BigQuery中有一个表.我想阅读该表并使用我创建的Dataproc集群(使用PySpark作业)对其进行一些分析.然后将此分析的结果写回BigQuery.您可能会问"为什么不直接在BigQuery中进行分析!?" - 原因是因为我们正在创建复杂的统计模型,而SQL的开发水平太高了.我们需要像Python或R,ergo Dataproc这样的东西.
他们是否有Dataproc + BigQuery示例?我找不到任何东西.