连接和coGroup转换可以读取2个输入数据集并输出一个("Y"通量)(如果我错了,请纠正我).
我想处理和更新2个数据集.为此,我计划使用2次coGroup转换.
但是,出于性能目的,这两种转换都可以在一个转换中完成("H"通量)吗?
此外,随着数据集的更新,我想迭代它们.如果目前无法实现,您是否计划在未来支持这种转型?
鉴于此 Dask DataFrame :
Dask DataFrame Structure:
date value symbol
npartitions=2
object int64 category[known]
... ...
... ...
Dask Name: from-delayed, 6 tasks2130
Run Code Online (Sandbox Code Playgroud)
如何在“符号”列(类别[已知)上设置索引?
df = df.set_index('symbol')
Traceback (most recent call last):
[...]
TypeError: Categorical is not ordered for operation max
you can use .as_ordered() to change the Categorical to an ordered one
Run Code Online (Sandbox Code Playgroud)