我可以使用以下方法将数据集按 80%:20% 的比例分割为训练集和测试集:
from datasets import load_dataset
ds = load_dataset("myusername/mycorpus")
ds = ds["train"].train_test_split(test_size=0.2) # my data in HF have 1 train split only
print(ds)
Run Code Online (Sandbox Code Playgroud)
其输出:
DatasetDict({
train: Dataset({
features: ['translation'],
num_rows: 62044
})
test: Dataset({
features: ['translation'],
num_rows: 15512
})
})
Run Code Online (Sandbox Code Playgroud)
如何生成比例为 80%:10%:10% 的验证拆分?