标签: google-cloud-dataproc

Google Cloud Dataflow和Google Cloud Dataproc有什么区别？

我正在使用Google Data Flow来实现ETL数据仓库解决方案.

看看谷歌云产品,似乎DataProc也可以做同样的事情.

DataProc似乎比DataFlow便宜一点.

有没有人知道DataFlow上DataFlow的优缺点

为什么谷歌同时提供？

google-cloud-dataflow google-cloud-dataproc

Kos*_*siB

2017 12-15

31
推荐指数

5
解决办法

2万
查看次数

作业因错误而失败：gcloud 崩溃（AttributeError）：“bool”对象没有属性“lower”

我们注意到我们的作业失败，dataproc 集群上出现以下错误。

ERROR: gcloud crashed (AttributeError): 'bool' object has no attribute 'lower'

If you would like to report this issue, please run the following command:
  gcloud feedback

To check gcloud for common problems, please run the following command:
  gcloud info --run-diagnostics

Run Code Online (Sandbox Code Playgroud)

运行诊断不会产生有价值的见解：

$ gcloud info --run-diagnostics
Network diagnostic detects and fixes local network connection issues.
Checking network connection...done.
Reachability Check passed.
Network diagnostic passed (1/1 checks passed).

Property diagnostic detects issues that may be caused by properties.
Checking hidden properties...done. …

Run Code Online (Sandbox Code Playgroud)

gcloud google-cloud-dataproc

Poo*_*ati

2023 05-03

23
推荐指数

2
解决办法

2732
查看次数

Google Cloud Logging中的Dataproc Spark作业输出

有没有办法将Dataproc Spark作业的输出发送到Google Cloud日志记录？如Dataproc文档中所述,作业驱动程序(Spark作业的主控)的输出在控制台中的Dataproc-> Jobs下可用.我希望在Cloud Logging中记录日志有两个原因:

我想看看执行者的日志.通常,主日志会在没有进一步细节的情况下说"执行器丢失",并且获得有关执行程序的更多信息将非常有用.
Cloud Logging具有很好的过滤和搜索功能

目前,Cloud Logging中显示的Dataproc唯一输出是来自yarn-yarn-nodemanager-*和container _*.stderr的日志项.我的应用程序代码的输出显示在Dataproc-> Jobs中,但不显示在Cloud Logging中,它只是Spark master的输出,而不是执行程序的输出.

apache-spark google-cloud-logging google-cloud-dataproc

Tho*_*oll

lucky-day

16
推荐指数

1
解决办法

1864
查看次数

Google Dataproc上的Spark UI在哪里？

我应该使用哪个端口来访问Google Dataproc上的Spark UI？

我尝试了端口4040和7077以及我发现使用的一堆其他端口 netstat -pln

防火墙配置正确.

apache-spark google-cloud-dataproc

BAR*_*BAR

lucky-day

11
推荐指数

1
解决办法

5304
查看次数

我应该使用哪种HBase HBase连接器？

我们的堆栈由Google Data Proc(Spark 2.0)和Google BigTable(HBase 1.2.0)组成,我正在寻找使用这些版本的连接器.

对于我找到的连接器,我不清楚Spark 2.0和新的DataSet API支持:

spark-hbase:https://github.com/apache/hbase/tree/master/hbase-spark
spark-hbase-connector:https://github.com/nerdammer/spark-hbase-connector
hortonworks-spark/shc:https://github.com/hortonworks-spark/shc

该项目使用SBT在Scala 2.11中编写.

谢谢你的帮助

hbase scala apache-spark google-cloud-bigtable google-cloud-dataproc

oge*_*gen

lucky-day

11
推荐指数

1
解决办法

8768
查看次数

通过Hadoop输入格式示例的pyspark的BigQuery连接器

我有一个存储在BigQuery表中的大型数据集,我想将其加载到pypark RDD中以进行ETL数据处理.

我意识到BigQuery支持Hadoop输入/输出格式

https://cloud.google.com/hadoop/writing-with-bigquery-connector

并且pyspark应该能够使用此接口以使用方法"newAPIHadoopRDD"创建RDD.

http://spark.apache.org/docs/latest/api/python/pyspark.html

不幸的是,两端的文档似乎很少,超出了我对Hadoop/Spark/BigQuery的了解.是否有人知道如何做到这一点？

google-bigquery apache-spark google-hadoop pyspark google-cloud-dataproc

Luc*_*chi

2015 10-23

10
推荐指数

1
解决办法

1404
查看次数

Dataproc + BigQuery示例 - 任何可用的？

根据Dataproc docos,它具有" 与BigQuery的本机和自动集成 ".

我在BigQuery中有一个表.我想阅读该表并使用我创建的Dataproc集群(使用PySpark作业)对其进行一些分析.然后将此分析的结果写回BigQuery.您可能会问"为什么不直接在BigQuery中进行分析!？" - 原因是因为我们正在创建复杂的统计模型,而SQL的开发水平太高了.我们需要像Python或R,ergo Dataproc这样的东西.

他们是否有Dataproc + BigQuery示例？我找不到任何东西.

google-bigquery google-cloud-platform google-cloud-dataproc

Gra*_*ley

2015 10-08

10
推荐指数

1
解决办法

2684
查看次数

自动设置Dataproc Cluster后,Yarn/Spark的内存分配不正确

我正在尝试在Dataproc集群上运行Spark作业,但由于Yarn配置错误,Spark无法启动.

从shell(本地主服务器)运行"spark-shell"时,以及通过Web-GUI和本地计算机上的gcloud命令行实用程序上载作业时,我收到以下错误:

15/11/08 21:27:16 ERROR org.apache.spark.SparkContext: Error initializing     SparkContext.
java.lang.IllegalArgumentException: Required executor memory (38281+2679 MB) is above the max threshold (20480 MB) of this cluster! Please increase the value of 'yarn.s
cheduler.maximum-allocation-mb'.

Run Code Online (Sandbox Code Playgroud)

我尝试修改值,/etc/hadoop/conf/yarn-site.xml但它没有改变任何东西.我不认为它从该文件中提取配置.

我已尝试在多个站点(主要是欧洲)使用多个群集组合,而我只能使用低内存版本(4核,15 GB内存).

也就是说,这仅仅是配置为高于纱线默认允许的内存的节点上的问题.

hadoop google-cloud-platform google-cloud-dataproc

hab*_*ats

lucky-day

10
推荐指数

1
解决办法

8678
查看次数

番石榴版同时使用火花壳

我试图通过数据采集器上的spark-shell使用spark-cassandra-connector,但是我无法连接到我的集群.似乎版本不匹配,因为类路径包含来自其他地方的更古老的番石榴版本,即使我在启动时指定了正确的版本.我怀疑这可能是由默认情况下放入类路径的所有Hadoop依赖项引起的.

反正有没有火花壳只使用适当版本的番石榴,而没有摆脱所有与Hadoop相关的数据包包括罐子？

在使用pyspark提交作业时,如何使用--files参数访问静态文件上传？

例如,我有一个文件夹:

/
  - test.py
  - test.yml

Run Code Online (Sandbox Code Playgroud)

并通过以下方式将作业提交给spark群集:

gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py"

在test.py,我想访问我上传的静态文件.

with open('test.yml') as test_file:
    logging.info(test_file.read())

Run Code Online (Sandbox Code Playgroud)

但得到以下例外:

IOError: [Errno 2] No such file or directory: 'test.yml'

Run Code Online (Sandbox Code Playgroud)

如何访问我上传的文件？

python apache-spark pyspark google-cloud-dataproc

luc*_*mia

lucky-day

10
推荐指数

1
解决办法

4133
查看次数

标签统计

google-cloud-dataproc ×10

apache-spark ×6

google-bigquery ×2

google-cloud-platform ×2

pyspark ×2

gcloud ×1

google-cloud-bigtable ×1

google-cloud-dataflow ×1

google-cloud-logging ×1

google-hadoop ×1

hadoop ×1

hbase ×1

python ×1

scala ×1

spark-cassandra-connector ×1

标签 统计

标签统计