相关疑难解决方法(0)

每次运行都有不同的结果(pyspark)

由于多次连接,我有一个数据框。我想调查重复的情况。但每次我调查时,数据框看起来都不一样。特别是,以下命令会导致不同IDs但结果数量保持不变。

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
import pyspark.sql.functions as f
from pyspark.sql.functions import lit

# Create a Spark session
spark = SparkSession.builder.appName("CreateDataFrame").getOrCreate()

# User input for number of rows
n_a = 10
n_a_c = 5
n_a_c_d = 3
n_a_c_e = 4

# Define the schema for the DataFrame
schema_a = StructType([StructField("id1", StringType(), True)])
schema_a_b = StructType(
    [
        StructField("id1", StringType(), True),
        StructField("id2", StringType(), True),
        StructField("extra", StringType(), True),
    ]
)
schema_a_c = StructType(
    [ …
Run Code Online (Sandbox Code Playgroud)

python apache-spark apache-spark-sql pyspark databricks

6
推荐指数
1
解决办法
1636
查看次数

为什么groupByKey操作总是有200个任务?

每当我groupByKey在RDD上进行操作时,即使原始表非常大,例如2k分区和数千万行,它也会分成200个作业.

此外,操作似乎停留在最后两个需要很长时间才能计算的任务上.

为什么是200?如何增加它,它会有帮助吗?

apache-spark

4
推荐指数
1
解决办法
1167
查看次数