小编Geo*_*nko的帖子

如何使用 Python Pandas 在特定切片中制作 DataFrame 切片和“fillna”?

问题:让我们从 Kaggle 中获取 Titanic 数据集。我有包含“Pclass”、“Sex”和“Age”列的数据框。我需要在“年龄”列中用某个组的中位数填充 NaN。如果是 1st class 的女性,我想用 1st class 女性的中位数填充她的年龄,而不是整个 Age 列的中位数。

问题是如何在某个切片中进行这种更改?

我试过:

data['Age'][(data['Sex'] == 'female')&(data['Pclass'] == 1)&(data['Age'].isnull())].fillna(median)
Run Code Online (Sandbox Code Playgroud)

“中位数”是我的价值,但没有任何变化“就地=真”没有帮助。

非常感谢!

python data-analysis dataframe pandas

5
推荐指数
1
解决办法
2111
查看次数

如何为多个数据框列创建管道?

我有 Dataframe 可以简化为:

import pandas as pd

df = pd.DataFrame([{
'title': 'batman',
'text': 'man bat man bat', 
'url': 'batman.com', 
'label':1}, 
{'title': 'spiderman',
'text': 'spiderman man spider', 
'url': 'spiderman.com', 
'label':1},
{'title': 'doctor evil',
 'text': 'a super evil doctor', 
'url': 'evilempyre.com', 
'label':0},])
Run Code Online (Sandbox Code Playgroud)

我想尝试不同的特征提取方法:TFIDF、word2vec、具有不同 ngram 设置的 Coutvectorizer 等。但我想尝试不同的组合:一个特征集将包含使用 TFIDF 转换的“文本”数据,以及使用Countvectoriser 和第二个将具有由 w2v 转换的文本数据,以及由 TFIDF 转换的“url”等。最后,当然,我想对不同的预处理策略进行比较并选择最好的一种。

以下是问题:

  1. 有没有办法使用 Pipeline 这样的标准 sklearn 工具来做这样的事情?

  2. 我的想法有常识吗?也许有一些好主意如何处理我所缺少的数据框中包含许多列的文本数据?

非常感谢!

python pandas scikit-learn

5
推荐指数
1
解决办法
6078
查看次数

标签 统计

pandas ×2

python ×2

data-analysis ×1

dataframe ×1

scikit-learn ×1