相关疑难解决方法(0)

如何做多个参数来映射函数,其中一个在python中保持不变?

让我们说我们有一个函数添加如下

def add(x, y):
    return x + y
Run Code Online (Sandbox Code Playgroud)

我们想为数组应用map函数

map(add, [1, 2, 3], 2)
Run Code Online (Sandbox Code Playgroud)

语义是我想为数组的每个元素添加2.但是该map函数也需要第三个参数中的列表.

注意:为了简单起见,我将添加示例.我原来的功能要复杂得多.当然,设置y添加功能的默认值的选项是不可能的,因为它将针对每个呼叫进行更改.

python

125
推荐指数
10
解决办法
14万
查看次数

有效分区dask数据帧的策略

对于DASK文档有关重新分割,以减少开销谈到这里.

然而,它们似乎表明您需要预先知道数据帧的外观(即预期数据的1/100).

是否有一种很好的方法可以在不做假设的情况下明智地进行重新分配?目前我只是重新分配npartitions = ncores * magic_number,并设置强制True扩展分区,如果需要.这种尺寸适用于所有方法,但由于我的数据集大小不同,因此绝对不是最理想的.

数据是时间序列数据,但不幸的是不是定期的,我过去曾经按时间频率重新分配,但由于数据的不规则性(这有时几分钟没有数千秒),这将是次优的.

python optimization dataframe dask

13
推荐指数
3
解决办法
5126
查看次数

如何将压缩(gz)CSV文件读入dask Dataframe?

有没有办法读取通过gz压缩到dask数据帧的.csv文件?

我直接尝试过

import dask.dataframe as dd
df = dd.read_csv("Data.gz" )
Run Code Online (Sandbox Code Playgroud)

但得到一个unicode错误(可能是因为它正在解释压缩的字节)有一个"compression"参数但compression = "gz"不起作用,到目前为止我找不到任何文档.

使用pandas我可以直接读取文件而不会产生问题,除了结果炸毁了我的记忆;-)但是如果我限制行数它可以正常工作.

import pandas.Dataframe as pd
df = pd.read_csv("Data.gz", ncols=100)
Run Code Online (Sandbox Code Playgroud)

python csv pandas dask

7
推荐指数
2
解决办法
5821
查看次数

标签 统计

python ×3

dask ×2

csv ×1

dataframe ×1

optimization ×1

pandas ×1