小编Jar*_*red的帖子

将键值是多个列表的字典拆分为训练集和测试集 Python

假设我有一本带有两个键（spam 和 ham）的字典，用于垃圾邮件和 ham 文本或电子邮件，如下所示：

data = {
    'spam': [
        ['hi', "what's", 'going', 'on', 'sexy', 'thing'], 
        ['1-800', 'call', 'girls', 'if', "you're", 'lonely'], 
        ['sexy', 'girls', 'for', 'youuuuuu']], 
    'ham': [['hey', 'hey', 'I', 'got', 'your', 'message,', "I'll", 'be', 'home', 'soon!!!'], 
        ['Madden', 'MUT', 'time', 'boys']]}

Run Code Online (Sandbox Code Playgroud)

我想将字典分成训练集和测试集（从 80/20 训练开始进行测试）。我希望分割时不考虑密钥，因此只需训练集总消息的 80% 和测试集总消息的 20% 的子集。在这个小例子中，我们总共有 5 条消息（3 条是垃圾邮件，2 条是正常邮件）。我已经四处寻找解决方案，但还没有找到任何可以处理此类情况的方法。

python dictionary split list

Jar*_*red

2020 02-10

1
推荐指数

1
解决办法

5627
查看次数