小编Ghi*_*ier的帖子

Flink:如何在一次转换中处理和输出两个数据集?

连接和coGroup转换可以读取2个输入数据集并输出一个("Y"通量)(如果我错了,请纠正我).

我想处理和更新2个数据集.为此,我计划使用2次coGroup转换.

但是,出于性能目的,这两种转换都可以在一个转换中完成("H"通量)吗?

此外,随着数据集的更新,我想迭代它们.如果目前无法实现,您是否计划在未来支持这种转型?

apache-flink

8
推荐指数
1
解决办法
863
查看次数

如何在分类类型上设置索引?

鉴于此 Dask DataFrame :

Dask DataFrame Structure:
             date  value           symbol
npartitions=2                                
           object  int64  category[known]
...              ...
...              ...
Dask Name: from-delayed, 6 tasks2130
Run Code Online (Sandbox Code Playgroud)

如何在“符号”列(类别[已知)上设置索引?

df = df.set_index('symbol')
Traceback (most recent call last):
[...]
TypeError: Categorical is not ordered for operation max
you can use .as_ordered() to change the Categorical to an ordered one
Run Code Online (Sandbox Code Playgroud)

python dataframe pandas dask

6
推荐指数
1
解决办法
1691
查看次数

标签 统计

apache-flink ×1

dask ×1

dataframe ×1

pandas ×1

python ×1