Spark Dataframe最大列数

Sar*_*ran 6 apache-spark apache-spark-sql pyspark

spark Dataframe的最大列数是多少?我尝试从数据框文档中获取它但无法找到它.

Kir*_*anM 1

从体系结构的角度来看,它们是可扩展的,因此列数不应有任何限制,但它可能会导致节点上的负载不均匀,并可能影响转换的整体性能。

  • 这是不正确的。您可以轻松找到硬限制(“Int.MaxValue”),但更重要的是 Spark 只能很好地扩展较长且相对较薄的数据。从根本上讲,您不能在执行器/分区之间拆分单个记录。并且存在许多实际限制(GC、磁盘 IO),使得非常宽的数据不切实际。更不用说一些已知的错误了。 (4认同)