目前,我在具有4个核心的边缘节点上运行Nifi.假设我有20个传入的流文件,并且我为ExecuteStreamCommand处理器提供10个并发任务,这是否意味着我只获得并发执行或并发和并行执行?
我有两个这样的数据框:
DF1:
id | name
---
1 | abc
2 | xyz
Run Code Online (Sandbox Code Playgroud)
DF2:
id | course
---
1 | c1
1 | c2
1 | c3
2 | c1
2 | c3
Run Code Online (Sandbox Code Playgroud)
当我执行 df1 和 df2 的 left_outer 或内部连接时,我希望得到的数据帧为:
id | name | course
---
1 | abc | c1
---
2 | xyz | c1
---
Run Code Online (Sandbox Code Playgroud)
我加入时id 1是c1,c2还是c3都没有关系;但我只需要一张唱片。
请让我知道如何在火花中实现这一目标。
谢谢,约翰
有人可以告诉我如何将x天数添加到Nifi格式(“ yyyy-MM-dd”)的日期属性中。