小编ron*_*nre的帖子

如何抑制在EMR上运行的spark-sql的INFO消息？

我在Amazon Elastic MapReduce上运行Spark和Spark SQL中描述的在EMR上运行Spark:

本教程将指导您在Amazon EMR集群上安装和运行Spark,这是一种用于大规模数据处理的快速通用引擎.您还将使用Spark SQL在Amazon S3中创建和查询数据集,并了解如何使用Amazon CloudWatch监控Amazon EMR集群上的Spark.

我试图INFO通过编辑$HOME/spark/conf/log4j.properties来抑制日志无济于事.

输出如下:

$ ./spark/bin/spark-sql
Spark assembly has been built with Hive, including Datanucleus jars on classpath
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/home/hadoop/.versions/2.4.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/home/hadoop/.versions/spark-1.1.1.e/lib/spark-assembly-1.1.1-hadoop2.4.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
2014-12-14 20:59:01,819 INFO  [main] Configuration.deprecation (Configuration.java:warnOnceIfDeprecated(1009)) - mapred.input.dir.recursive is deprecated. Instead, use mapreduce.input.fileinputformat.input.dir.recursive
2014-12-14 20:59:01,825 INFO …

Run Code Online (Sandbox Code Playgroud)

log4j emr apache-spark

ron*_*nre

2014 12-24

14
推荐指数

3
解决办法

7280
查看次数

在保留分区的同时缓存数据帧

我在Spark 2.2.0上,在EMR上运行.

我有一个很大的数据帧df(40G左右的压缩snappy文件),它由键k1和分区k2.

当我通过k1=== v1或(k1=== v1&& k2 ===v2`)查询时,我可以看到它只查询分区中的文件(大约2%的文件).

但是,如果我缓存或持久存在 df,突然这些查询会击中所有分区,并且要么会耗尽内存,要么性能要低得多.

这是一个很大的惊喜 - 有没有办法进行缓存,以保留分区信息

apache-spark

ron*_*nre

lucky-day

6
推荐指数

1
解决办法

329
查看次数

Grails启动过程

是否有文档描述grails如何初始化？

当您执行以下操作时会发生什么grails run-app:启动servlet容器,启动插件,属性,映射域对象和资源的过程[和开发人员挂钩]是什么？这些资源以控制器初始化和服务请求结束？

grails

ron*_*nre

lucky-day

4
推荐指数

1
解决办法

1231
查看次数

将数据输入和输出Elastic MapReduce HDFS

我编写了一个Hadoop程序,它需要HDFS中的某个布局,之后,我需要从HDFS中获取文件.它适用于我的单节点Hadoop设置,我很想让它在Elastic MapReduce中的10个节点上工作.

我一直在做的是这样的:

./elastic-mapreduce --create --alive
JOBID="j-XXX" # output from creation
./elastic-mapreduce -j $JOBID --ssh "hadoop fs -cp s3://bucket-id/XXX /XXX"
./elastic-mapreduce -j $JOBID --jar s3://bucket-id/jars/hdeploy.jar --main-class com.ranjan.HadoopMain --arg /XXX

Run Code Online (Sandbox Code Playgroud)

这是异步的,但是当作业完成后,我可以这样做

./elastic-mapreduce -j $JOBID --ssh "hadoop fs -cp /XXX s3://bucket-id/XXX-output"
./elastic-mapreduce -j $JOBID --terminate

Run Code Online (Sandbox Code Playgroud)

所以虽然这种方式有效,但它很笨重,而不是我想要的.有更清洁的方法吗？

谢谢!

hadoop elastic-map-reduce

ron*_*nre

2011 10-09

3
推荐指数

1
解决办法

2272
查看次数

Grails属性初始化

我正在尝试将遗留的java/spring应用程序集成到我的grails应用程序中.此代码使用了许多自定义属性,这些属性在我连接遗留应用程序上下文内容时似乎不可用.

如果我在Config.groovy中单独加载它们,事情就会开始起作用,但我真的很喜欢这样做的一种编程方式(意味着加载遗留属性对象并将它们插入grails配置中).

这样做的最佳方法是什么？Bootstrap init似乎为时已晚,appContext已经在那时刷新了,它引发了一个关于未解析属性的异常.

grails spring

ron*_*nre

2013 04-05

1
推荐指数

1
解决办法

175
查看次数

标签统计

apache-spark ×2

grails ×2

elastic-map-reduce ×1

emr ×1

hadoop ×1

log4j ×1

spring ×1

如何抑制在EMR上运行的spark-sql的INFO消息？

在保留分区的同时缓存数据帧

Grails启动过程

将数据输入和输出Elastic MapReduce HDFS

Grails属性初始化

标签 统计

小编ron_nre的帖子

标签统计