新的dask,1GB当我在dask数据帧中读取它时,我有一个CSV文件,它在我写入文件的更改后创建了大约50个分区,它创建了与分区一样多的文件.
有没有办法将所有分区写入单个CSV文件,是否有办法访问分区?
谢谢.
假设我有pandas数据帧:
df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
Run Code Online (Sandbox Code Playgroud)
当我将它转换为dask数据帧时应该name和divisions参数包括:
from dask import dataframe as dd
sd=dd.DataFrame(df.to_dict(),divisions=1,meta=pd.DataFrame(columns=df.columns,index=df.index))
Run Code Online (Sandbox Code Playgroud)
TypeError:init()缺少1个必需的位置参数:'name'
编辑:假设我创建了一个pandas数据框,如:
pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
Run Code Online (Sandbox Code Playgroud)
同样如何创建DASK数据帧,因为它需要三个额外的参数作为name,divisions和meta.
sd=dd.Dataframe({'a':[1,2,3],'b':[4,5,6]},name=,meta=,divisions=)
Run Code Online (Sandbox Code Playgroud)
谢谢您的回复.
我有一个数据帧:
In [15]: df
Out[15]:
date day
0 2015-10-10 23
1 2015-12-19 9
2 2016-03-05 34
3 2016-09-17 23
4 2016-04-30 2
Run Code Online (Sandbox Code Playgroud)
我想从日期中减去天数并创建一个新列.
In [16]: df.dtypes
Out[16]:
date datetime64[ns]
day int64
Run Code Online (Sandbox Code Playgroud)
期望的输出类似于:
In [15]: df
Out[15]:
date day date1
0 2015-10-10 23 2015-09-17
1 2015-12-19 9 2015-12-10
2 2016-03-05 34 2016-01-29
3 2016-09-17 23 2016-08-25
4 2016-04-30 2 2016-04-28
Run Code Online (Sandbox Code Playgroud)
我试过但这不起作用:
df['date1']=df['date']+pd.Timedelta(df['date'].dt.day-df['day'])
Run Code Online (Sandbox Code Playgroud)
它抛出错误:
TypeError:timedelta days组件的不支持类型:Series