我在Hadoop的YARN上运行Spark.这种转换如何运作?在转换之前是否会发生collect()?
另外我需要在每个从节点上安装Python和R才能使转换工作?我很难找到这方面的文件.
hadoop dataframe pandas apache-spark apache-spark-sql
apache-spark ×1
apache-spark-sql ×1
dataframe ×1
hadoop ×1
pandas ×1