小编Anu*_*dey的帖子

如何比较pandas中的两列来制作第三列?

我在熊猫数据框中有两列年龄和性别

sex = ['m', 'f' , 'm', 'f', 'f', 'f', 'f']
age = [16 ,  15 , 14 , 9  , 8   , 2   , 56 ]
Run Code Online (Sandbox Code Playgroud)

现在我想提取第三列:如果年龄<= 9则输出'child',如果年龄> 9,则输出相应的性别

sex = ['m', 'f'  , 'm','f'    ,'f'    ,'f'    , 'f']
age = [16 ,  15  , 14 , 9     , 8     , 2     , 56 ]
yes = ['m', 'f'  ,'m' ,'child','child','child','f' ]
Run Code Online (Sandbox Code Playgroud)

请帮助ps.我仍在努力,如果我得到任何东西,我会立即更新

python pandas

10
推荐指数
3
解决办法
3万
查看次数

在sklearn countvectorizer中fit_transform和transform之间有什么区别?

我刚刚开始学习随机森林,所以如果这听起来很愚蠢,我很抱歉

我最近正在练习一揽子单词介绍:讨价还价 ,我想澄清一些事情:

使用vectorizer.fit_transform(" 清洁评论列表*上的*")

现在,当我们在火车评论上准备一堆单词数组时,我们在火车评论列表中使用了fit_predict,现在我知道fit_predict做了两件事,>首先它适合数据并知道词汇,然后它在每个上面生成向量审查.

因此,当我们使用vectorizer.transform(" 清洁列车评论列表 ")时, 这只是将测试评论列表转换为每个评论的向量.

我的问题是.....为什么不在 测试列表上使用fit_transform !! 我的意思是在文件中它说它会导致过度拟合,但等待它对我来说是否有意义使用它反正,让我给你我的预期:

当我们不使用fit_transform时,我们基本上是说使用最常用的火车评论词来制作测试评论的特征向量!! 为什么不使用测试中最频繁的单词来制作测试特征数组呢?

我的意思是随机关怀吗?如果我们给随机森林火车特征数组和训练特征情绪工作和训练自己,然后给它测试 特征数组不会只是给出它的情绪预测.

注意:我可能没有以正确的方式询问,但是当人们试图回答时,我会更新问题更清楚..

python tokenize random-forest scikit-learn

4
推荐指数
1
解决办法
5404
查看次数

标签 统计

python ×2

pandas ×1

random-forest ×1

scikit-learn ×1

tokenize ×1