在Python中使用数据框和此代码,我能够创建一个图:
g = sns.lmplot('credibility', 'percentWatched', data=data, hue = 'millennial', markers = ["+", "."], x_jitter = True, y_jitter = True, size=5)
g.set(xlabel = 'Credibility Ranking\n ? Low High ?', ylabel = 'Percent of Video Watched [%]')
Run Code Online (Sandbox Code Playgroud)
但是有传说说"+ 0"和".1"对读者来说并不是很有帮助.如何编辑图例的标签?理想情况下,它不是说"千禧一代",而是说"一代"和"+千禧一代"."老一代"
我有一个数据集,我想从中创建几个平均值的多个变量.
我开始时:
data2['socialIdeology2'].mean()
data2['econIdeology'].mean()
Run Code Online (Sandbox Code Playgroud)
^完美的工作,并给我我正在寻找的平均值.
现在,我正在尝试进行条件均值,因此仅对数据集中的选择组进行均值.(我想要在2016年选举中投票选出的意识形态细分)在Stata中,代码类似于:mean(variable) if voteChoice == 'Clinton'
调查一下,我得出的结论是条件均值不是一个东西(虽然希望我错了?),所以我正在编写自己的函数.
这是我刚开始使用'均值'函数,为条件均值函数创建基础:
def mean():
sum = 0.0
count = 0
for index in range(0, len(data2['socialIdeology2'])):
sum = sum + (data2['socialIdeology2'][index])
print(data2['socialIdeology2'][index])
count = count + 1
return sum / count
print(mean())
Run Code Online (Sandbox Code Playgroud)
然而,我不断得到'nan'作为结果.打印data2['socialIdeology2'][index]
循环内打印nan
一遍又一遍.
所以我的问题是:如果存储在socialIdeology2
变量中的数据确实是一个nan
(我不明白它是怎么回事),为什么.mean()
函数可以使用呢?
我怎样才能按类别获得生成方式?