因此,我们正在运行spark工作,提取数据并进行一些扩展的数据转换并写入几个不同的文件.一切都运行良好但我在资源密集型工作完成和下一个工作开始之间的随机扩张延迟.
在下图中,我们可以看到计划在17:22:02完成的工作需要15分钟才能完成,这意味着我预计下一份工作将在17:37:02左右安排.然而,下一份工作安排在22:05:59,这是工作成功后的+4小时.
当我深入研究下一个作业的火花UI时,它会显示<1秒的调度程序延迟.所以我很困惑这4小时的延迟来自哪里.
(带有Hadoop 2的Spark 1.6.1)
更新:
我可以确认David的回答是关于如何在Spark中处理IO操作有点出乎意料.(考虑到排序和/或其他操作,在写入之前,写入文件基本上会在幕后"收集"是有道理的.)但是,由于I/O时间不包含在作业执行时间中,我感到有些不安.我想你可以在spark UI的"SQL"选项卡中看到它,因为即使所有工作都成功但查询仍在运行,但你根本无法深入研究它.
我确信还有更多方法可以改进,但是下面两种方法对我来说已经足够了:
parquet.enable.summary-metadata
false我正在尝试将css过渡应用于svg各种元素. transition: all 2s
适用于圆形,但它不适用于路径.
那么"全部"有什么更具体的东西?
编辑:
下面的链接有更多信息动画svg线或路径......似乎css过渡不可能...
如何进行 CSV 编码然后压缩?
有没有办法将一个作家与另一个作家联系起来?我必须在写入器之间创建一个新的缓冲区吗?
var buf bytes.Buffer
zipWriter := zip.NewWriter(&buf)
csvwriter := csv.NewWriter(zipWriter) // <--- zip writer doesn't implement `io.writer`
csvwriter.Write([]string{"a", "b\"fwr", "c"})
csvwriter.Write([]string{"a", "e", "ww"})
csvwriter.Flush()
println(buf.String())
Run Code Online (Sandbox Code Playgroud) 每当我使用AWS Java SDK时,都会被疯狂的日志轰炸,因为它被设置为调试状态,而我无法保持其正常运行。
以下是带有-Dlog4j.debug
标志的输出结果。
它表明我的log4j.properties文件已被读取和解析。使用root logger OFF
和com.amazonaws
at,WARN
但我仍然看到调试级别的日志记录。我想念什么吗?
log4j: Trying to find [log4j.xml] using context classloader sun.misc.Launcher$AppClassLoader@42a57993.
log4j: Trying to find [log4j.xml] using sun.misc.Launcher$AppClassLoader@42a57993 class loader.
log4j: Trying to find [log4j.xml] using ClassLoader.getSystemResource().
log4j: Trying to find [log4j.properties] using context classloader sun.misc.Launcher$AppClassLoader@42a57993.
log4j: Using URL [jar:file:/p-test/target/scala-2.11/phoenix-test-assembly-81fc4750d1.jar!/log4j.properties] for automatic log4j configuration.
log4j: Reading configuration from URL jar:file:/p-test/target/scala-2.11/phoenix-test-assembly-81fc4750d1.jar!/log4j.properties
log4j: Parsing for [root] with value=[OFF].
log4j: Level token is [OFF].
log4j: Category root set to OFF
log4j: …
Run Code Online (Sandbox Code Playgroud) apache-spark ×2
animation ×1
aws-java-sdk ×1
css ×1
go ×1
hadoop ×1
hadoop-yarn ×1
html ×1
log4j ×1
scala ×1
stream ×1
svg ×1