小编ril*_*yss的帖子

Shapeless是否使用反射并且在scala生成代码中使用是否安全?

在阅读了很多文章后,我仍然对scala Shapeless库感到困惑.似乎Shapeless使用scala编译功能?那么它是否使用反射并且对生产代码安全吗?

reflection scala shapeless

3
推荐指数
1
解决办法
214
查看次数

我们应该让气流调度程序运行多长时间?

我对气流如何通过调度程序获取新 DAG 代码中的更改感到非常困惑。有人可以澄清气流调度程序如何使用新代码吗?airflow scheduler每次更改 DAG 中的代码时是否都需要停止并重新运行?--num_runs 1或者我可以在每次进行新更改时设置并运行它吗?

谢谢!

airflow airflow-scheduler

2
推荐指数
1
解决办法
3686
查看次数

Scala的distinct()和spark的distinct(),哪个更有效?

当处理大量数据(大约10,000行数据)时,我想确保数据中没有重复项

我们的工作流程是先读取镶木地板文件以生成火花dataframes,然后将其转换dataframesscala case classes

有两个选项可以消除重复项:

  1. 呼叫阶distinct()Seq[caseClasses]
  2. 呼叫火花distinct()dataframes

深入研究scala源代码,我发现它遍历了每条记录,并将它们放在set。与spark相比,哪种方法更有效?

谢谢!

编辑:原始帖子说数据大小是10,000,这是我们的测试数据的大小。后来数据大小可以达到500万。

scala apache-spark

1
推荐指数
1
解决办法
64
查看次数