小编tes*_*ter的帖子

如何将Scala Spark Dataset.show重定向到log4j logger

Spark API Doc展示了如何从发送到stdout的数据集或数据帧中获取漂亮的打印snippit.

这个输出可以定向到log4j记录器吗？或者:有人可以共享代码,这将创建与df.show()类似的输出格式吗？

有没有办法做到这一点,允许stdout在将.show()输出推送到记录器之前和之后都进入控制台？

http://spark.apache.org/docs/latest/sql-programming-guide.htm

val df = spark.read.json("examples/src/main/resources/people.json")

// Displays the content of the DataFrame to stdout
df.show()
// +----+-------+
// | age|   name|
// +----+-------+
// |null|Michael|
// |  30|   Andy|
// |  19| Justin|
// +----+-------+

Run Code Online (Sandbox Code Playgroud)

logging scala dataset apache-spark

tes*_*ter

lucky-day

8
推荐指数

2
解决办法

2125
查看次数

如何增加 HDFS 容量

如何将我的 hadoop DFS 的配置容量从默认的 50GB 增加到 100GB？

我目前的设置是在 centOS6 机器上运行的 hadoop 1.2.1，使用了 120GB 的 450GB。使用“Hadoop the Definitive Guide 3'rd”建议的 /conf 将 hadoop 设置为 psudodistributed 模式。hdfs-site.xml 只有一个配置属性：

   <configuration>
    <property>
         <name>dfs.replication</name>
         <value>1</value>
     </property>
 </configuration>

Run Code Online (Sandbox Code Playgroud)

以下行没有给出错误反馈......回到提示。

hadoop dfsadmin -setSpaceQuota 100g  /tmp/hadoop-myUserID

Run Code Online (Sandbox Code Playgroud)

如果我处于 regen 循环中（已执行

 rm -rf /tmp/hadoop-myUserId

Run Code Online (Sandbox Code Playgroud)

试图“从头开始”） setSpaceQuota 的这种看似成功仅在我执行时才发生

  start-all.sh
  hadoop namenode -format

Run Code Online (Sandbox Code Playgroud)

我的 dfs 容量配置失败显示为

 hadoop dfsadmin -report

Run Code Online (Sandbox Code Playgroud)

它显示了相同的 50GB 配置容量。

如果这是当前获得 100GB hdfs 配置容量的最佳方式，我愿意切换到 hadoop 2.2（现在稳定版本）。似乎 hdfs-site.xml 应该有一个配置属性，它允许我使用更多的空闲分区。

hadoop hdfs

tes*_*ter

lucky-day

5
推荐指数

1
解决办法

8441
查看次数

如何从Scala Spark DataFrameReader csv记录格式错误的行

Scala_Spark_DataFrameReader_csv的文档表明spark可以记录在读取.csv文件时检测到的格式错误的行.
- 如何记录格式错误的行？
- 可以获得包含格式错误行的val或var吗？

链接文档中的选项是:maxMalformedLogPerPartition(默认值为10):设置Spark将为每个分区记录的格式错误行的最大数量.超出此数字的格式错误的记录将被忽略

csv logging scala apache-spark

tes*_*ter

lucky-day

5
推荐指数

1
解决办法

604
查看次数

标签统计

apache-spark ×2

logging ×2

scala ×2

csv ×1

dataset ×1

hadoop ×1

hdfs ×1

如何将Scala Spark Dataset.show重定向到log4j logger

如何增加 HDFS 容量

如何从Scala Spark DataFrameReader csv记录格式错误的行

标签 统计

小编tes_ter的帖子

标签统计