小编Vin*_*mar的帖子

用 Spark Dataframe 中的空值替换空值

我有一个包含 n 列的数据框，我想用空值替换所有这些列中的空字符串。

我尝试使用

val ReadDf = rawDF.na.replace("columnA", Map( "" -> null));

Run Code Online (Sandbox Code Playgroud)

和

val ReadDf = rawDF.withColumn("columnA", if($"columnA"=="") lit(null) else $"columnA" );

Run Code Online (Sandbox Code Playgroud)

他们两个都没有工作。

任何线索将不胜感激。谢谢。

scala dataframe apache-spark apache-spark-sql

Vin*_*mar

2018 08-16

3
推荐指数

1
解决办法

5875
查看次数

如何在 Spark 中创建一个空的数据帧

我有一组基于 Avro 的配置单元表，我需要从中读取数据。由于 Spark-SQL 使用 hive serdes 从 HDFS 读取数据，因此比直接读取 HDFS 慢得多。所以我使用数据砖 Spark-Avro jar 从底层 HDFS 目录读取 Avro 文件。

一切正常，除非桌子是空的。我已设法使用以下命令从 hive 表的 .avsc 文件中获取架构，但出现错误“未找到 Avro 文件”

val schemaFile = FileSystem.get(sc.hadoopConfiguration).open(new Path("hdfs://myfile.avsc"));

val schema = new Schema.Parser().parse(schemaFile);

spark.read.format("com.databricks.spark.avro").option("avroSchema", schema.toString).load("/tmp/myoutput.avro").show()

Run Code Online (Sandbox Code Playgroud)

解决方法：

我在该目录中放置了一个空文件，同样的事情也能正常工作。

有没有其他方法可以实现相同的目标？比如conf设置之类的？

scala avro apache-spark apache-spark-sql spark-avro

Vin*_*mar

2019 04-10

3
推荐指数

3
解决办法

2万
查看次数

无法在EMR中重新启动Hue

我无法在AWS EMR Hadoop集群中重新启动Hue.我修改了hue.ini文件并想重新启动hue以便应用更改.当我运行"service hue restart"时,它发出"command not found"错误.我可以理解这一定是因为hue没有添加到环境路径中.但是,当我运行bin/hue时,它不会重新启动作为输入.有没有办法重新启动色调？

我正在使用Hue 3.7.1-amzn-7,emr-4.8.4和Amazon 2.7.3 Hadoop发行版.

提前致谢.

hadoop hue emr

Vin*_*mar

2017 05-02

1
推荐指数

1
解决办法

2875
查看次数