小编ami*_*jad的帖子

复杂数据集拆分 - StratifiedGroupShuffleSplit

我有一个大约 2m 观测值的数据集,我需要以 60:20:20 的比例将其拆分为训练、验证和测试集。我的数据集的简化摘录如下所示:

+---------+------------+-----------+-----------+
| note_id | subject_id | category  |   note    |
+---------+------------+-----------+-----------+
|       1 |          1 | ECG       | blah ...  |
|       2 |          1 | Discharge | blah ...  |
|       3 |          1 | Nursing   | blah ...  |
|       4 |          2 | Nursing   | blah ...  |
|       5 |          2 | Nursing   | blah ...  |
|       6 |          3 | ECG       | blah ...  |
+---------+------------+-----------+-----------+
Run Code Online (Sandbox Code Playgroud)

有多个类别——它们并不均衡——所以我需要确保训练、验证和测试集都具有与原始数据集中相同的类别比例。这部分很好,我可以StratifiedShuffleSplit从 …

python machine-learning dataset scikit-learn

13
推荐指数
3
解决办法
2376
查看次数

标签 统计

dataset ×1

machine-learning ×1

python ×1

scikit-learn ×1