了解 dask 中的 map_partitions 的作用

Question

了解 dask 中的 map_partitions 的作用

use*_*890 2 python parallel-processing dataframe dask

我试图理解map_partitionsin 的dask作用。这是我的例子：

import dask.dataframe as dd
import pandas as pd
from dask.multiprocessing import get
import random

df = pd.DataFrame({'col_1':random.sample(range(10000), 100), 'col_2': random.sample(range(10000), 100) })

def test_f(df):
    print(df.col_1)
    print("------------")

ddf = dd.from_pandas(df, npartitions=8)

ddf['result'] = ddf.map_partitions(test_f ).compute(get=get)

Run Code Online (Sandbox Code Playgroud)

这是输出：

0    1.0
1    1.0
Name: col_1, dtype: float64
------------

Run Code Online (Sandbox Code Playgroud)

为什么我无法完整打印我的数据框？输出是什么意思？

Answer 1

mdu*_*ant 5

map_partitions采用可选meta=关键字，您可以使用该关键字告诉 Dask 您期望函数的输出如何。这通常是一个好主意，因为它避免了 Dask 必须推断输出的外观，这可能会导致发生不重要的工作。

如果没有meta=，Dask 将首先调用您的函数，以推断输出，然后针对每个分区。您正在看到其中的第一个。如果您提供任何meta=，您将只能看到分区。显然您想要提供实际的预期输出模板；但在你的情况下，该函数实际上不会返回任何内容。

为了避免过多的推理工作，Dask 使用典型的虚拟值。在这种情况下，对于每个浮点列，使用的值1.0，并且有多个行以确保输入看起来像数据帧而不是序列。

归档时间：	7 年，10 月前
查看次数：	2574 次
最近记录：	7 年，10 月前