小编fmv*_*992的帖子

Spark 采样速度太慢

我正在尝试使用 Scala 从现有表中执行一个简单的随机样本,其中包含大约 100e6 条记录。

import org.apache.spark.sql.SaveMode

val nSamples = 3e5.toInt
val frac = 1e-5
val table = spark.table("db_name.table_name").sample(false, frac).limit(nSamples)
(table
  .write
  .mode(SaveMode.Overwrite)
  .saveAsTable("db_name.new_name")
)
Run Code Online (Sandbox Code Playgroud)

但它花费的时间太长(据我估计约为 5 小时)。

有用的信息:

  1. 我有〜6名工人。通过分析表的分区数我得到:11433

  2. 我不确定分区/工人的比例是否合理。

  3. 我正在使用 Scala 运行 Spark 2.1.0。

我努力了:

  1. 移除.limit()零件。

  2. 更改frac1.00.1

问题:我怎样才能让它更快?

最好的,

random performance scala apache-spark

3
推荐指数
1
解决办法
4964
查看次数

如何将带标题的图像放入 pandoc 的项目符号列表中

我正在尝试编写一个 pandoc markdown 文本,其中包含项目符号列表中的图像,该列表还显示标题。那是:

* Item 1.
* Item 2.
![This is my caption](image.png "I tried using this as caption too")
Item 2 text is supposed to continue here (thus same indenting).
* Item 3.
Run Code Online (Sandbox Code Playgroud)

但字幕不显示。

如果我将一个图形放在自己的段落中,标签会显示,但缩进/延续会混乱。

* Item 1.
* Item 2.

![This is my caption](image.png "I tried using this as caption too")

Item 2 text does not continue with the same indenting/continuation : (
* Item 3.
Run Code Online (Sandbox Code Playgroud)

我的最终转换是一个 HTML 文件。

markdown image caption pandoc

2
推荐指数
1
解决办法
2257
查看次数

标签 统计

apache-spark ×1

caption ×1

image ×1

markdown ×1

pandoc ×1

performance ×1

random ×1

scala ×1