Zub*_*med 5 python dataframe dask
我有以下代码,我想在Dask数据帧上进行训练/测试拆分
df = dd.read_csv(csv_filename, sep=',', encoding="latin-1",
names=cols, header=0, dtype='str')
Run Code Online (Sandbox Code Playgroud)
但是当我尝试做像
for train, test in cv.split(X, y):
df.fit(X[train], y[train])
Run Code Online (Sandbox Code Playgroud)
它因错误而失败
KeyError: '[11639 11641 11642 ..., 34997 34998 34999] not in index'
Run Code Online (Sandbox Code Playgroud)
有任何想法吗?
Dask.dataframe不支持按行切片。loc如果您有合理的索引,它确实支持该操作。
但是,在训练/测试拆分的情况下,使用random_split方法可能会更好。
train, test = df.random_split([0.80, 0.20])
Run Code Online (Sandbox Code Playgroud)
您还可以通过多种方式进行拆分和合并
splits = df.random_split([0.20, 0.20, 0.20, 0.20, 0.20])
for i in range(5):
trains = [splits[j] for j in range(5) if j != i]
train = dd.concat(trains, axis=0)
test = splits[i]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1414 次 |
| 最近记录: |