我在Amazon Elastic MapReduce上运行Spark和Spark SQL中描述的在EMR上运行Spark:
本教程将指导您在Amazon EMR集群上安装和运行Spark,这是一种用于大规模数据处理的快速通用引擎.您还将使用Spark SQL在Amazon S3中创建和查询数据集,并了解如何使用Amazon CloudWatch监控Amazon EMR集群上的Spark.
我试图INFO通过编辑$HOME/spark/conf/log4j.properties来抑制日志无济于事.
输出如下:
$ ./spark/bin/spark-sql
Spark assembly has been built with Hive, including Datanucleus jars on classpath
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/home/hadoop/.versions/2.4.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/home/hadoop/.versions/spark-1.1.1.e/lib/spark-assembly-1.1.1-hadoop2.4.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
2014-12-14 20:59:01,819 INFO [main] Configuration.deprecation (Configuration.java:warnOnceIfDeprecated(1009)) - mapred.input.dir.recursive is deprecated. Instead, use mapreduce.input.fileinputformat.input.dir.recursive
2014-12-14 20:59:01,825 INFO …Run Code Online (Sandbox Code Playgroud) 我在Spark 2.2.0上,在EMR上运行.
我有一个很大的数据帧df(40G左右的压缩snappy文件),它由键k1和分区k2.
当我通过k1=== v1或(k1=== v1&& k2 ===v2`)查询时,我可以看到它只查询分区中的文件(大约2%的文件).
但是,如果我缓存或持久存在 df,突然这些查询会击中所有分区,并且要么会耗尽内存,要么性能要低得多.
这是一个很大的惊喜 - 有没有办法进行缓存,以保留分区信息
是否有文档描述grails如何初始化?
当您执行以下操作时会发生什么grails run-app:启动servlet容器,启动插件,属性,映射域对象和资源的过程[和开发人员挂钩]是什么?这些资源以控制器初始化和服务请求结束?
我编写了一个Hadoop程序,它需要HDFS中的某个布局,之后,我需要从HDFS中获取文件.它适用于我的单节点Hadoop设置,我很想让它在Elastic MapReduce中的10个节点上工作.
我一直在做的是这样的:
./elastic-mapreduce --create --alive
JOBID="j-XXX" # output from creation
./elastic-mapreduce -j $JOBID --ssh "hadoop fs -cp s3://bucket-id/XXX /XXX"
./elastic-mapreduce -j $JOBID --jar s3://bucket-id/jars/hdeploy.jar --main-class com.ranjan.HadoopMain --arg /XXX
Run Code Online (Sandbox Code Playgroud)
这是异步的,但是当作业完成后,我可以这样做
./elastic-mapreduce -j $JOBID --ssh "hadoop fs -cp /XXX s3://bucket-id/XXX-output"
./elastic-mapreduce -j $JOBID --terminate
Run Code Online (Sandbox Code Playgroud)
所以虽然这种方式有效,但它很笨重,而不是我想要的.有更清洁的方法吗?
谢谢!
我正在尝试将遗留的java/spring应用程序集成到我的grails应用程序中.此代码使用了许多自定义属性,这些属性在我连接遗留应用程序上下文内容时似乎不可用.
如果我在Config.groovy中单独加载它们,事情就会开始起作用,但我真的很喜欢这样做的一种编程方式(意味着加载遗留属性对象并将它们插入grails配置中).
这样做的最佳方法是什么?Bootstrap init似乎为时已晚,appContext已经在那时刷新了,它引发了一个关于未解析属性的异常.