小编Oli*_*r G的帖子

编辑seaborn传奇

在Python中使用数据框和此代码,我能够创建一个图:

g = sns.lmplot('credibility', 'percentWatched', data=data, hue = 'millennial', markers = ["+", "."], x_jitter = True, y_jitter = True, size=5)
g.set(xlabel = 'Credibility Ranking\n ? Low       High  ?', ylabel = 'Percent of Video Watched [%]')

Run Code Online (Sandbox Code Playgroud)

但是有传说说"+ 0"和".1"对读者来说并不是很有帮助.如何编辑图例的标签？理想情况下,它不是说"千禧一代",而是说"一代"和"+千禧一代"."老一代"

python matplotlib legend seaborn

Oli*_*r G

2017 12-16

35
推荐指数

2
解决办法

5万
查看次数

Pandas DataFrame的条件均值

我有一个数据集,我想从中创建几个平均值的多个变量.

我开始时:

data2['socialIdeology2'].mean()

data2['econIdeology'].mean()

Run Code Online (Sandbox Code Playgroud)

^完美的工作,并给我我正在寻找的平均值.

现在,我正在尝试进行条件均值,因此仅对数据集中的选择组进行均值.(我想要在2016年选举中投票选出的意识形态细分)在Stata中,代码类似于:mean(variable) if voteChoice == 'Clinton'

调查一下,我得出的结论是条件均值不是一个东西(虽然希望我错了？),所以我正在编写自己的函数.

这是我刚开始使用'均值'函数,为条件均值函数创建基础:

def mean():
    sum = 0.0
    count = 0
    for index in range(0, len(data2['socialIdeology2'])):
        sum = sum + (data2['socialIdeology2'][index])
        print(data2['socialIdeology2'][index])
        count = count + 1
    return sum / count

print(mean())

Run Code Online (Sandbox Code Playgroud)

然而,我不断得到'nan'作为结果.打印data2['socialIdeology2'][index]循环内打印nan一遍又一遍.

所以我的问题是:如果存储在socialIdeology2变量中的数据确实是一个nan(我不明白它是怎么回事),为什么.mean()函数可以使用呢？

我怎样才能按类别获得生成方式？

python nan mean pandas

Oli*_*r G

2017 06-28

5
推荐指数

1
解决办法

9359
查看次数