相关疑难解决方法(0)

通过Hadoop输入格式示例的pyspark的BigQuery连接器

我有一个存储在BigQuery表中的大型数据集,我想将其加载到pypark RDD中以进行ETL数据处理.

我意识到BigQuery支持Hadoop输入/输出格式

https://cloud.google.com/hadoop/writing-with-bigquery-connector

并且pyspark应该能够使用此接口以使用方法"newAPIHadoopRDD"创建RDD.

http://spark.apache.org/docs/latest/api/python/pyspark.html

不幸的是,两端的文档似乎很少,超出了我对Hadoop/Spark/BigQuery的了解.是否有人知道如何做到这一点？

google-bigquery apache-spark google-hadoop pyspark google-cloud-dataproc

Luc*_*chi

2015 10-23

10
推荐指数

1
解决办法

1404
查看次数

Dataproc + BigQuery示例 - 任何可用的？

根据Dataproc docos,它具有" 与BigQuery的本机和自动集成 ".

我在BigQuery中有一个表.我想阅读该表并使用我创建的Dataproc集群(使用PySpark作业)对其进行一些分析.然后将此分析的结果写回BigQuery.您可能会问"为什么不直接在BigQuery中进行分析!？" - 原因是因为我们正在创建复杂的统计模型,而SQL的开发水平太高了.我们需要像Python或R,ergo Dataproc这样的东西.

他们是否有Dataproc + BigQuery示例？我找不到任何东西.

google-bigquery google-cloud-platform google-cloud-dataproc

Gra*_*ley

2015 10-08

10
推荐指数

1
解决办法

2684
查看次数