Jam*_*lor 2 statistics confidence-interval apache-spark apache-spark-sql pyspark
我使用以下函数计算 pyspark 中的性别比例。
除此之外,我还想计算一个比例的置信区间,就像Python中的那样,例如计算一个样本中比例的置信区间
所以我应该有一个/两个额外的列与 lower_ci 和 upper_ci
import pyspark.sql.functions as F
def gender_prop(df, grp):
test_df = df.filter(
F.col('GENDER').isin(['0','F'])
).groupBy(grp).agg(
F.mean(
F.when(F.col('GENDER') == F.lit('M'), 1.0).otherwise(0.0)
).alias('gender_score'),
F.count(F.lit(1)).alias('total')
).filter('no_of_streams > 100')
return test_df
df = gender_prop(df, 'title')
display(df)
title gender_prop total
1 ABC 0.2749954192878519 491190
2 CART 0.5417543859649123 320625
3 NUMB 0.3385603833169988 275490
4 PRO 0.24459397661200757 229605
5 SHOW 0.2673127254721652 212055
Run Code Online (Sandbox Code Playgroud)
抱歉含糊其辞,所以基本上我想在 pyspark 中做一些事情,就像这个例子一样
import pandas as pd
import numpy as np
import math
df=pd.DataFrame({'Class': ['A1','A1','A1','A2','A3','A3'],
'Force': [50,150,100,120,140,160] },
columns=['Class', 'Force'])
print(df)
print('-'*30)
stats = df.groupby(['Class'])['Force'].agg(['mean', 'count', 'std'])
print(stats)
print('-'*30)
ci95_hi = []
ci95_lo = []
for i in stats.index:
m, c, s = stats.loc[i]
ci95_hi.append(m + 1.96*s/math.sqrt(c))
ci95_lo.append(m - 1.96*s/math.sqrt(c))
stats['ci95_hi'] = ci95_hi
stats['ci95_lo'] = ci95_lo
print(stats)
Run Code Online (Sandbox Code Playgroud)
我将感谢您的帮助 提前致谢
您的第一个代码片段有许多不清楚的过滤器,但想法如下:
import pyspark.sql.functions as F
def gender_prop(df, grp):
col = F.when(F.col('GENDER') == F.lit('M'), 1.0).otherwise(0.0)
return df.groupBy(grp).agg(
F.mean(col).alias('avg'),
F.count(F.lit(1)).alias('total'),
F.stddev(col).alias('std')
).withColumn(
'ci95_hi',
F.col('avg') + 1.96 * F.col('std') / F.sqrt(F.col('total'))
).withColumn(
'ci95_lo',
F.col('avg') - 1.96 * F.col('std') / F.sqrt(F.col('total'))
)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1578 次 |
| 最近记录: |