小编ril*_*yss的帖子

在阅读了很多文章后,我仍然对scala Shapeless库感到困惑.似乎Shapeless使用scala编译功能？那么它是否使用反射并且对生产代码安全吗？

3
推荐指数

1
解决办法

214
查看次数

我对气流如何通过调度程序获取新 DAG 代码中的更改感到非常困惑。有人可以澄清气流调度程序如何使用新代码吗？airflow scheduler每次更改 DAG 中的代码时是否都需要停止并重新运行？--num_runs 1或者我可以在每次进行新更改时设置并运行它吗？

谢谢！

2
推荐指数

1
解决办法

3686
查看次数

当处理大量数据（大约10,000行数据）时，我想确保数据中没有重复项。

我们的工作流程是先读取镶木地板文件以生成火花dataframes，然后将其转换dataframes为scala case classes。

有两个选项可以消除重复项：

深入研究scala源代码，我发现它遍历了每条记录，并将它们放在set。与spark相比，哪种方法更有效？

谢谢！

编辑：原始帖子说数据大小是10,000，这是我们的测试数据的大小。后来数据大小可以达到500万。

1
推荐指数

1
解决办法

64
查看次数

小编ril_yss的帖子