我正在使用Google Data Flow来实现ETL数据仓库解决方案.
看看谷歌云产品,似乎DataProc也可以做同样的事情.
DataProc似乎比DataFlow便宜一点.
有没有人知道DataFlow上DataFlow的优缺点
为什么谷歌同时提供?
我们注意到我们的作业失败,dataproc 集群上出现以下错误。
ERROR: gcloud crashed (AttributeError): 'bool' object has no attribute 'lower'
If you would like to report this issue, please run the following command:
gcloud feedback
To check gcloud for common problems, please run the following command:
gcloud info --run-diagnostics
Run Code Online (Sandbox Code Playgroud)
运行诊断不会产生有价值的见解:
$ gcloud info --run-diagnostics
Network diagnostic detects and fixes local network connection issues.
Checking network connection...done.
Reachability Check passed.
Network diagnostic passed (1/1 checks passed).
Property diagnostic detects issues that may be caused by properties.
Checking hidden properties...done. …
Run Code Online (Sandbox Code Playgroud) 有没有办法将Dataproc Spark作业的输出发送到Google Cloud日志记录?如Dataproc文档中所述,作业驱动程序(Spark作业的主控)的输出在控制台中的Dataproc-> Jobs下可用.我希望在Cloud Logging中记录日志有两个原因:
目前,Cloud Logging中显示的Dataproc唯一输出是来自yarn-yarn-nodemanager-*和container _*.stderr的日志项.我的应用程序代码的输出显示在Dataproc-> Jobs中,但不显示在Cloud Logging中,它只是Spark master的输出,而不是执行程序的输出.
我应该使用哪个端口来访问Google Dataproc上的Spark UI?
我尝试了端口4040和7077以及我发现使用的一堆其他端口 netstat -pln
防火墙配置正确.
我们的堆栈由Google Data Proc(Spark 2.0)和Google BigTable(HBase 1.2.0)组成,我正在寻找使用这些版本的连接器.
对于我找到的连接器,我不清楚Spark 2.0和新的DataSet API支持:
该项目使用SBT在Scala 2.11中编写.
谢谢你的帮助
hbase scala apache-spark google-cloud-bigtable google-cloud-dataproc
我有一个存储在BigQuery表中的大型数据集,我想将其加载到pypark RDD中以进行ETL数据处理.
我意识到BigQuery支持Hadoop输入/输出格式
https://cloud.google.com/hadoop/writing-with-bigquery-connector
并且pyspark应该能够使用此接口以使用方法"newAPIHadoopRDD"创建RDD.
http://spark.apache.org/docs/latest/api/python/pyspark.html
不幸的是,两端的文档似乎很少,超出了我对Hadoop/Spark/BigQuery的了解.是否有人知道如何做到这一点?
google-bigquery apache-spark google-hadoop pyspark google-cloud-dataproc
根据Dataproc docos,它具有" 与BigQuery的本机和自动集成 ".
我在BigQuery中有一个表.我想阅读该表并使用我创建的Dataproc集群(使用PySpark作业)对其进行一些分析.然后将此分析的结果写回BigQuery.您可能会问"为什么不直接在BigQuery中进行分析!?" - 原因是因为我们正在创建复杂的统计模型,而SQL的开发水平太高了.我们需要像Python或R,ergo Dataproc这样的东西.
他们是否有Dataproc + BigQuery示例?我找不到任何东西.
我正在尝试在Dataproc集群上运行Spark作业,但由于Yarn配置错误,Spark无法启动.
从shell(本地主服务器)运行"spark-shell"时,以及通过Web-GUI和本地计算机上的gcloud命令行实用程序上载作业时,我收到以下错误:
15/11/08 21:27:16 ERROR org.apache.spark.SparkContext: Error initializing SparkContext.
java.lang.IllegalArgumentException: Required executor memory (38281+2679 MB) is above the max threshold (20480 MB) of this cluster! Please increase the value of 'yarn.s
cheduler.maximum-allocation-mb'.
Run Code Online (Sandbox Code Playgroud)
我尝试修改值,/etc/hadoop/conf/yarn-site.xml
但它没有改变任何东西.我不认为它从该文件中提取配置.
我已尝试在多个站点(主要是欧洲)使用多个群集组合,而我只能使用低内存版本(4核,15 GB内存).
也就是说,这仅仅是配置为高于纱线默认允许的内存的节点上的问题.
我试图通过数据采集器上的spark-shell使用spark-cassandra-connector,但是我无法连接到我的集群.似乎版本不匹配,因为类路径包含来自其他地方的更古老的番石榴版本,即使我在启动时指定了正确的版本.我怀疑这可能是由默认情况下放入类路径的所有Hadoop依赖项引起的.
反正有没有火花壳只使用适当版本的番石榴,而没有摆脱所有与Hadoop相关的数据包包括罐子?
相关数据:
启动spark-shell,显示它具有适当版本的Guava: $ spark-shell --packages com.datastax.spark:spark-cassandra-connector_2.10:1.5.0-M3
:: loading settings :: url = jar:file:/usr/lib/spark/lib/spark-assembly-1.5.2-hadoop2.7.1.jar!/org/apache/ivy/core/settings/ivysettings.xml
com.datastax.spark#spark-cassandra-connector_2.10 added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent;1.0
confs: [default]
found com.datastax.spark#spark-cassandra-connector_2.10;1.5.0-M3 in central
found org.apache.cassandra#cassandra-clientutil;2.2.2 in central
found com.datastax.cassandra#cassandra-driver-core;3.0.0-alpha4 in central
found io.netty#netty-handler;4.0.27.Final in central
found io.netty#netty-buffer;4.0.27.Final in central
found io.netty#netty-common;4.0.27.Final in central
found io.netty#netty-transport;4.0.27.Final in central
found io.netty#netty-codec;4.0.27.Final in central
found com.codahale.metrics#metrics-core;3.0.2 in central
found org.slf4j#slf4j-api;1.7.5 in central
found org.apache.commons#commons-lang3;3.3.2 in central
found com.google.guava#guava;16.0.1 in central
found org.joda#joda-convert;1.2 in central
found …
Run Code Online (Sandbox Code Playgroud) apache-spark spark-cassandra-connector google-cloud-dataproc
例如,我有一个文件夹:
/
- test.py
- test.yml
Run Code Online (Sandbox Code Playgroud)
并通过以下方式将作业提交给spark群集:
gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py"
在test.py
,我想访问我上传的静态文件.
with open('test.yml') as test_file:
logging.info(test_file.read())
Run Code Online (Sandbox Code Playgroud)
但得到以下例外:
IOError: [Errno 2] No such file or directory: 'test.yml'
Run Code Online (Sandbox Code Playgroud)
如何访问我上传的文件?