统计 Pyspark Dataframe 中的行数

Question

统计 Pyspark Dataframe 中的行数

0 python dataframe apache-spark apache-spark-sql pyspark

我想对我的 DF 进行一些检查，为了尝试它，我使用以下代码：

start = '2020-12-10'
end = datetime.date.today()
country='gb'


df_ua = (spark.table(f'nn_squad7_{country}.fact_table')
      .filter(f.col('date_key').between(start,end))
      #.filter(f.col('is_client')==1)
      .filter(f.col('source')=='tickets')
      .filter(f.col('subtype')=='trx')
      .filter(f.col('is_trx_ok') == 1) 
      .select('ticket_id').distinct() 
      )

output = df_ua.count('ticket_id').distinct()

Run Code Online (Sandbox Code Playgroud)

我收到以下错误：

类型错误：count() 采用 1 个位置参数，但给出了 2 个

我不明白为什么我会得到它，有什么线索吗？

Answer 1

mck*_*mck 5

只需这样做就足够了，因为您在上面的行中df_ua.count()选择了不同的。ticket_id

df.count()返回数据框中的行数。它不接受任何参数，例如列名。它还返回一个整数 - 你不能调用distinct整数。

归档时间：	5 年，1 月前
查看次数：	17959 次
最近记录：	5 年，1 月前