在pyspark中,运行:
sdf = sqlContext.sql("""SELECT * FROM t1 JOIN t2 on t1.c1 = t2.c1 """)
进而:
sdf.explain(extended=True)
它打印查询执行的逻辑和物理计划。
我的问题是:如何在变量中捕获输出,而不是打印它?
v = sdf.explain(extended=True) 自然,不起作用
我想在pyspark中捕获show的结果,类似于此处和此处。我无法使用pyspark找到解决方案,只能使用scala。
df.show()
#+----+-------+
#| age| name|
#+----+-------+
#|null|Michael|
#| 30| Andy|
#| 19| Justin|
#+----+-------+
Run Code Online (Sandbox Code Playgroud)
最终目的是将其捕获为logger.info
我尝试过的字符串logger.info(df.show()),仅在控制台上显示。