小编rey*_*rey的帖子

将Dask分区写入单个文件

新的dask,1GB当我在dask数据帧中读取它时,我有一个CSV文件,它在我写入文件的更改后创建了大约50个分区,它创建了与分区一样多的文件.
有没有办法将所有分区写入单个CSV文件,是否有办法访问分区?
谢谢.

python dask

19
推荐指数
2
解决办法
5927
查看次数

将Pandas数据帧转换为Dask数据帧

假设我有pandas数据帧:

df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
Run Code Online (Sandbox Code Playgroud)

当我将它转换为dask数据帧时应该namedivisions参数包括:

from dask import dataframe as dd 
sd=dd.DataFrame(df.to_dict(),divisions=1,meta=pd.DataFrame(columns=df.columns,index=df.index))
Run Code Online (Sandbox Code Playgroud)

TypeError:init()缺少1个必需的位置参数:'name'

编辑:假设我创建了一个pandas数据框,如:

pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
Run Code Online (Sandbox Code Playgroud)

同样如何创建DASK数据帧,因为它需要三个额外的参数作为name,divisionsmeta.

sd=dd.Dataframe({'a':[1,2,3],'b':[4,5,6]},name=,meta=,divisions=)
Run Code Online (Sandbox Code Playgroud)

谢谢您的回复.

python data-conversion dataframe pandas dask

19
推荐指数
1
解决办法
2万
查看次数

如何在减去熊猫天数后获取日期

我有一个数据帧:

In [15]: df
Out[15]: 
        date  day
0 2015-10-10   23
1 2015-12-19    9
2 2016-03-05   34
3 2016-09-17   23
4 2016-04-30    2
Run Code Online (Sandbox Code Playgroud)

我想从日期中减去天数并创建一个新列.

In [16]: df.dtypes
Out[16]: 
date    datetime64[ns]
day              int64
Run Code Online (Sandbox Code Playgroud)

期望的输出类似于:

In [15]: df
Out[15]: 
        date  day date1
0 2015-10-10   23 2015-09-17
1 2015-12-19    9 2015-12-10
2 2016-03-05   34 2016-01-29
3 2016-09-17   23 2016-08-25
4 2016-04-30    2 2016-04-28
Run Code Online (Sandbox Code Playgroud)

我试过但这不起作用:

df['date1']=df['date']+pd.Timedelta(df['date'].dt.day-df['day'])
Run Code Online (Sandbox Code Playgroud)

它抛出错误:

TypeError:timedelta days组件的不支持类型:Series

python pandas

5
推荐指数
1
解决办法
1万
查看次数

标签 统计

python ×3

dask ×2

pandas ×2

data-conversion ×1

dataframe ×1