相关疑难解决方法(0)

使用 HuggingFace 数据集函数将数据集拆分为训练、测试和验证

我可以使用以下方法将数据集按 80%:20% 的比例分割为训练集和测试集:

from datasets import load_dataset
ds = load_dataset("myusername/mycorpus")
ds = ds["train"].train_test_split(test_size=0.2) # my data in HF have 1 train split only
print(ds)
Run Code Online (Sandbox Code Playgroud)

其输出:

DatasetDict({
    train: Dataset({
        features: ['translation'],
        num_rows: 62044
    })
    test: Dataset({
        features: ['translation'],
        num_rows: 15512
    })
})
Run Code Online (Sandbox Code Playgroud)

如何生成比例为 80%:10%:10% 的验证拆分?

python huggingface-datasets

5
推荐指数
1
解决办法
7986
查看次数

标签 统计

huggingface-datasets ×1

python ×1