0 python dataframe apache-spark apache-spark-sql pyspark
我想对我的 DF 进行一些检查,为了尝试它,我使用以下代码:
start = '2020-12-10'
end = datetime.date.today()
country='gb'
df_ua = (spark.table(f'nn_squad7_{country}.fact_table')
.filter(f.col('date_key').between(start,end))
#.filter(f.col('is_client')==1)
.filter(f.col('source')=='tickets')
.filter(f.col('subtype')=='trx')
.filter(f.col('is_trx_ok') == 1)
.select('ticket_id').distinct()
)
output = df_ua.count('ticket_id').distinct()
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
类型错误:count() 采用 1 个位置参数,但给出了 2 个
我不明白为什么我会得到它,有什么线索吗?
只需这样做就足够了,因为您在上面的行中df_ua.count()选择了不同的。ticket_id
df.count()返回数据框中的行数。它不接受任何参数,例如列名。它还返回一个整数 - 你不能调用distinct整数。