小编use*_*189的帖子

SPARK SQL - 当时的情况

我是SPARK-SQL的新手.在SPARK SQL中是否有相当于"CASE WHEN'条件'那么0结束1"的结果?

select case when 1=1 then 1 else 0 end from table

谢谢Sridhar

sql apache-spark

26
推荐指数
2
解决办法
7万
查看次数

Hive日期功能可实现星期几

我正在寻找一个星期几的变通方法或蜂巢日期功能,

Sunday - 1
Monday - 2
Tuesday - 3
Wednesday - 4
Thursday - 5
Friday - 6
Saturday - 7
Run Code Online (Sandbox Code Playgroud)

要求详细:我正在寻找一个函数,它将日期字符串(YYYYMMDD)作为输入,并根据上表输出星期几.

apache hive

14
推荐指数
4
解决办法
4万
查看次数

星级模式会在红移中受益吗?

我是redshift的新手,我对redshift与星型模式的兼容性有一个基本的问题.

一般情况下,星级模式会在红移中获益吗?

具体问题,

redshift中的"KEY"分发方法仅支持基于一个键的分发,在星型模式的情况下它会有用,其中事实表的键是外键的组合.

谢谢Sridhar

amazon-web-services amazon-redshift

8
推荐指数
1
解决办法
2513
查看次数

相当于SPARK中的左外连接

SPARK SCALA中是否有左外连接等效?我知道有一个连接操作,相当于数据库内连接.

scala apache-spark

7
推荐指数
2
解决办法
3万
查看次数

Spark 2.2.0 FileOutputCommitter

Spark 2.2.0中不再提供DirectFileOutputCommitter.这意味着写入S3需要花费很长时间(3小时vs 2分钟).通过这样做,我可以通过在spark-shell中将FileOutputCommitter版本设置为2来解决这个问题,

spark-shell --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2 
Run Code Online (Sandbox Code Playgroud)

同样不适用于spark-sql

spark-sql --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2 
Run Code Online (Sandbox Code Playgroud)

上面的命令似乎是设置版本= 2,但是当执行查询时,它仍然显示版本1行为.

两个问题,

1)如何使用spark-sql获取FileOutputCommitter版本2的行为?

2)我有没有办法在spark 2.2.0中使用DirectFileOutputCommitter?[我很好,数据丢失的可能性非为零]

相关物品:

Spark 1.6 DirectFileOutputCommitter

hadoop amazon-s3 amazon-emr apache-spark apache-spark-sql

6
推荐指数
1
解决办法
4936
查看次数

如何查看Spark使用的内核数?

我已经spark.cores.max设置为24[3个工作程序节点],但是如果我进入我的工作程序节点并看到只有一个正在运行的进程[command = Java]正在消耗内存和CPU。我怀疑它没有使用全部8个内核m2.4x large

怎么知道这个数字?

apache-spark

5
推荐指数
1
解决办法
5217
查看次数

在"SPARK-SUBMIT"中部署模式

在SPARK-SUBMIT中,"纱线","纱线簇","纱线 - 客户"部署模式之间有什么区别?

./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master yarn-cluster \  # can also be `yarn-client` for client mode
  --executor-memory 20G \
  --num-executors 50 \
  /path/to/examples.jar \
  1000
Run Code Online (Sandbox Code Playgroud)

https://spark.apache.org/docs/1.1.0/submitting-applications.html

hadoop-yarn apache-spark

5
推荐指数
1
解决办法
6715
查看次数

不含“=”的 Hive 分区表的 S3 文件夹结构

我有一个像这样的现有 S3 文件夹结构,

s3://mydata/{country}/{date}/
Run Code Online (Sandbox Code Playgroud)
  • {country}可以是 30 个不同国家中的任何一个

  • {date}可以是 20150101 以来的任何日期

如何通过将 {country} 视为分区并将 {date} 视为子分区来在 Hive 中读取此内容?

hive amazon-s3 emr

5
推荐指数
1
解决办法
903
查看次数

AWS redshift中的序列号生成功能

redshift中有序列号生成功能吗?还是一个将值组合并给出数字哈希键的函数?

amazon-web-services amazon-redshift

4
推荐指数
2
解决办法
1万
查看次数

Scala - 将数组转换为map

我有这样的数组

(20140101,20140102,20140103,20140104,20140105,20140106,20140107,20140108)
Run Code Online (Sandbox Code Playgroud)

我想通过在每个值前加上"s3://"并用逗号连接三个值来创建一个映射.

输出:

val params = Map("1"-> "s3://20140101,s3://20140102,s3://20140103","2"-> "s3://20140104,s3://20140105,s3://20140106","3"->"s3://20140107,s3://20140108")
Run Code Online (Sandbox Code Playgroud)

我是初学者,请在这里请一些想法.

scala

4
推荐指数
2
解决办法
2万
查看次数

Apache火花消息理解

请求帮助以了解此消息..

INFO spark.MapOutputTrackerMaster: Size of output statuses for shuffle 2 is **2202921** bytes
Run Code Online (Sandbox Code Playgroud)

2202921在这里意味着什么?

我的工作是一个随机操作,当从前一个阶段读取随机文件时,它首先给出消息,然后在一段时间之后失败并出现以下错误:

14/11/12 11:09:46 WARN scheduler.TaskSetManager: Lost task 224.0 in stage 4.0 (TID 13938, ip-xx-xxx-xxx-xx.ec2.internal): FetchFailed(BlockManagerId(11, ip-xx-xxx-xxx-xx.ec2.internal, 48073, 0), shuffleId=2, mapId=7468, reduceId=224)
14/11/12 11:09:46 INFO scheduler.DAGScheduler: Marking Stage 4 (coalesce at <console>:49) as failed due to a fetch failure from Stage 3 (map at <console>:42)
14/11/12 11:09:46 INFO scheduler.DAGScheduler: Stage 4 (coalesce at <console>:49) failed in 213.446 s
14/11/12 11:09:46 INFO scheduler.DAGScheduler: Resubmitting Stage 3 (map at …
Run Code Online (Sandbox Code Playgroud)

scala apache-spark

2
推荐指数
1
解决办法
3681
查看次数