标签: google-cloud-dataproc

Google Cloud Dataflow和Google Cloud Dataproc有什么区别?

我正在使用Google Data Flow来实现ETL数据仓库解决方案.

看看谷歌云产品,似乎DataProc也可以做同样的事情.

DataProc似乎比DataFlow便宜一点.

有没有人知道DataFlow上DataFlow的优缺点

为什么谷歌同时提供?

google-cloud-dataflow google-cloud-dataproc

31
推荐指数
5
解决办法
2万
查看次数

作业因错误而失败:gcloud 崩溃(AttributeError):“bool”对象没有属性“lower”

我们注意到我们的作业失败,dataproc 集群上出现以下错误。

ERROR: gcloud crashed (AttributeError): 'bool' object has no attribute 'lower'

If you would like to report this issue, please run the following command:
  gcloud feedback

To check gcloud for common problems, please run the following command:
  gcloud info --run-diagnostics
Run Code Online (Sandbox Code Playgroud)

运行诊断不会产生有价值的见解:

$ gcloud info --run-diagnostics
Network diagnostic detects and fixes local network connection issues.
Checking network connection...done.
Reachability Check passed.
Network diagnostic passed (1/1 checks passed).

Property diagnostic detects issues that may be caused by properties.
Checking hidden properties...done. …
Run Code Online (Sandbox Code Playgroud)

gcloud google-cloud-dataproc

23
推荐指数
2
解决办法
2732
查看次数

Google Cloud Logging中的Dataproc Spark作业输出

有没有办法将Dataproc Spark作业的输出发送到Google Cloud日志记录?如Dataproc文档中所述,作业驱动程序(Spark作业的主控)的输出在控制台中的Dataproc-> Jobs下可用.我希望在Cloud Logging中记录日志有两个原因:

  1. 我想看看执行者的日志.通常,主日志会在没有进一步细节的情况下说"执行器丢失",并且获得有关执行程序的更多信息将非常有用.
  2. Cloud Logging具有很好的过滤和搜索功能

目前,Cloud Logging中显示的Dataproc唯一输出是来自yarn-yarn-nodemanager-*和container _*.stderr的日志项.我的应用程序代码的输出显示在Dataproc-> Jobs中,但不显示在Cloud Logging中,它只是Spark master的输出,而不是执行程序的输出.

apache-spark google-cloud-logging google-cloud-dataproc

16
推荐指数
1
解决办法
1864
查看次数

Google Dataproc上的Spark UI在哪里?

我应该使用哪个端口来访问Google Dataproc上的Spark UI?

我尝试了端口4040和7077以及我发现使用的一堆其他端口 netstat -pln

防火墙配置正确.

apache-spark google-cloud-dataproc

11
推荐指数
1
解决办法
5304
查看次数

我应该使用哪种HBase HBase连接器?

我们的堆栈由Google Data Proc(Spark 2.0)和Google BigTable(HBase 1.2.0)组成,我正在寻找使用这些版本的连接器.

对于我找到的连接器,我不清楚Spark 2.0和新的DataSet API支持:

该项目使用SBT在Scala 2.11中编写.

谢谢你的帮助

hbase scala apache-spark google-cloud-bigtable google-cloud-dataproc

11
推荐指数
1
解决办法
8768
查看次数

通过Hadoop输入格式示例的pyspark的BigQuery连接器

我有一个存储在BigQuery表中的大型数据集,我想将其加载到pypark RDD中以进行ETL数据处理.

我意识到BigQuery支持Hadoop输入/输出格式

https://cloud.google.com/hadoop/writing-with-bigquery-connector

并且pyspark应该能够使用此接口以使用方法"newAPIHadoopRDD"创建RDD.

http://spark.apache.org/docs/latest/api/python/pyspark.html

不幸的是,两端的文档似乎很少,超出了我对Hadoop/Spark/BigQuery的了解.是否有人知道如何做到这一点?

google-bigquery apache-spark google-hadoop pyspark google-cloud-dataproc

10
推荐指数
1
解决办法
1404
查看次数

Dataproc + BigQuery示例 - 任何可用的?

根据Dataproc docos,它具有" 与BigQuery的本机和自动集成 ".

我在BigQuery中有一个表.我想阅读该表并使用我创建的Dataproc集群(使用PySpark作业)对其进行一些分析.然后将此分析的结果写回BigQuery.您可能会问"为什么不直接在BigQuery中进行分析!?" - 原因是因为我们正在创建复杂的统计模型,而SQL的开发水平太高了.我们需要像Python或R,ergo Dataproc这样的东西.

他们是否有Dataproc + BigQuery示例?我找不到任何东西.

google-bigquery google-cloud-platform google-cloud-dataproc

10
推荐指数
1
解决办法
2684
查看次数

自动设置Dataproc Cluster后,Yarn/Spark的内存分配不正确

我正在尝试在Dataproc集群上运行Spark作业,但由于Yarn配置错误,Spark无法启动.

从shell(本地主服务器)运行"spark-shell"时,以及通过Web-GUI和本地计算机上的gcloud命令行实用程序上载作业时,我收到以下错误:

15/11/08 21:27:16 ERROR org.apache.spark.SparkContext: Error initializing     SparkContext.
java.lang.IllegalArgumentException: Required executor memory (38281+2679 MB) is above the max threshold (20480 MB) of this cluster! Please increase the value of 'yarn.s
cheduler.maximum-allocation-mb'.
Run Code Online (Sandbox Code Playgroud)

我尝试修改值,/etc/hadoop/conf/yarn-site.xml但它没有改变任何东西.我不认为它从该文件中提取配置.

我已尝试在多个站点(主要是欧洲)使用多个群集组合,而我只能使用低内存版本(4核,15 GB内存).

也就是说,这仅仅是配置为高于纱线默认允许的内存的节点上的问题.

hadoop google-cloud-platform google-cloud-dataproc

10
推荐指数
1
解决办法
8678
查看次数

番石榴版同时使用火花壳

我试图通过数据采集器上的spark-shell使用spark-cassandra-connector,但是我无法连接到我的集群.似乎版本不匹配,因为类路径包含来自其他地方的更古老的番石榴版本,即使我在启动时指定了正确的版本.我怀疑这可能是由默认情况下放入类路径的所有Hadoop依赖项引起的.

反正有没有火花壳只使用适当版本的番石榴,而没有摆脱所有与Hadoop相关的数据包包括罐子?

相关数据:

启动spark-shell,显示它具有适当版本的Guava: $ spark-shell --packages com.datastax.spark:spark-cassandra-connector_2.10:1.5.0-M3

:: loading settings :: url = jar:file:/usr/lib/spark/lib/spark-assembly-1.5.2-hadoop2.7.1.jar!/org/apache/ivy/core/settings/ivysettings.xml
com.datastax.spark#spark-cassandra-connector_2.10 added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent;1.0
        confs: [default]
        found com.datastax.spark#spark-cassandra-connector_2.10;1.5.0-M3 in central
        found org.apache.cassandra#cassandra-clientutil;2.2.2 in central
        found com.datastax.cassandra#cassandra-driver-core;3.0.0-alpha4 in central
        found io.netty#netty-handler;4.0.27.Final in central
        found io.netty#netty-buffer;4.0.27.Final in central
        found io.netty#netty-common;4.0.27.Final in central
        found io.netty#netty-transport;4.0.27.Final in central
        found io.netty#netty-codec;4.0.27.Final in central
        found com.codahale.metrics#metrics-core;3.0.2 in central
        found org.slf4j#slf4j-api;1.7.5 in central
        found org.apache.commons#commons-lang3;3.3.2 in central
        found com.google.guava#guava;16.0.1 in central
        found org.joda#joda-convert;1.2 in central
        found …
Run Code Online (Sandbox Code Playgroud)

apache-spark spark-cassandra-connector google-cloud-dataproc

10
推荐指数
1
解决办法
4668
查看次数

在使用pyspark提交作业时,如何使用--files参数访问静态文件上传?

例如,我有一个文件夹:

/
  - test.py
  - test.yml
Run Code Online (Sandbox Code Playgroud)

并通过以下方式将作业提交给spark群集:

gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py"

test.py,我想访问我上传的静态文件.

with open('test.yml') as test_file:
    logging.info(test_file.read())
Run Code Online (Sandbox Code Playgroud)

但得到以下例外:

IOError: [Errno 2] No such file or directory: 'test.yml'
Run Code Online (Sandbox Code Playgroud)

如何访问我上传的文件?

python apache-spark pyspark google-cloud-dataproc

10
推荐指数
1
解决办法
4133
查看次数