我有一个大约 2m 观测值的数据集,我需要以 60:20:20 的比例将其拆分为训练、验证和测试集。我的数据集的简化摘录如下所示:
+---------+------------+-----------+-----------+
| note_id | subject_id | category | note |
+---------+------------+-----------+-----------+
| 1 | 1 | ECG | blah ... |
| 2 | 1 | Discharge | blah ... |
| 3 | 1 | Nursing | blah ... |
| 4 | 2 | Nursing | blah ... |
| 5 | 2 | Nursing | blah ... |
| 6 | 3 | ECG | blah ... |
+---------+------------+-----------+-----------+
Run Code Online (Sandbox Code Playgroud)
有多个类别——它们并不均衡——所以我需要确保训练、验证和测试集都具有与原始数据集中相同的类别比例。这部分很好,我可以StratifiedShuffleSplit
从 …