相关疑难解决方法(0)

每次运行都有不同的结果（pyspark）

由于多次连接，我有一个数据框。我想调查重复的情况。但每次我调查时，数据框看起来都不一样。特别是，以下命令会导致不同IDs但结果数量保持不变。

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
import pyspark.sql.functions as f
from pyspark.sql.functions import lit

# Create a Spark session
spark = SparkSession.builder.appName("CreateDataFrame").getOrCreate()

# User input for number of rows
n_a = 10
n_a_c = 5
n_a_c_d = 3
n_a_c_e = 4

# Define the schema for the DataFrame
schema_a = StructType([StructField("id1", StringType(), True)])
schema_a_b = StructType(
    [
        StructField("id1", StringType(), True),
        StructField("id2", StringType(), True),
        StructField("extra", StringType(), True),
    ]
)
schema_a_c = StructType(
    [ …

Run Code Online (Sandbox Code Playgroud)

python apache-spark apache-spark-sql pyspark databricks

Laz*_* Xp

2023 04-27

6
推荐指数

1
解决办法

1636
查看次数