小编Pep*_*e95的帖子

我如何处理这个数据集来创建 datasetDict？

我正在尝试构建一个 datasetDictionary 对象来在 PyTorch 上训练 QA 模型。我有这两个不同的数据集：

test_dataset

Dataset({
    features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
    num_rows: 21489
})

Run Code Online (Sandbox Code Playgroud)

和

train_dataset

Dataset({
    features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
    num_rows: 54159
})

Run Code Online (Sandbox Code Playgroud)

在数据集的文档中我没有找到任何内容。我是个菜鸟，因此解决方案可能非常简单。我希望获得的是这样的：

dataset

DatasetDict({
    train: Dataset({
        features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
        num_rows: 54159
    })
    test: Dataset({
        features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
        num_rows: 21489
    })
})

Run Code Online (Sandbox Code Playgroud)

我真的不知道如何使用两个数据集来创建 dataserDict 或如何设置键。此外，我希望将训练集“切割”为两部分：训练集和验证集，但这段话对我来说很难处理。最终结果应该是这样的：

dataset

DatasetDict({
    train: Dataset({
        features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', …

Run Code Online (Sandbox Code Playgroud)

python dataset nlp-question-answering deep-learning pytorch

Pep*_*e95

2021 06-07

17
推荐指数

2
解决办法

2万
查看次数

标签统计

dataset ×1

deep-learning ×1

nlp-question-answering ×1

python ×1

pytorch ×1

我如何处理这个数据集来创建 datasetDict？

标签 统计

小编Pep_e95的帖子

标签统计