由于多次连接,我有一个数据框。我想调查重复的情况。但每次我调查时,数据框看起来都不一样。特别是,以下命令会导致不同IDs但结果数量保持不变。
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
import pyspark.sql.functions as f
from pyspark.sql.functions import lit
# Create a Spark session
spark = SparkSession.builder.appName("CreateDataFrame").getOrCreate()
# User input for number of rows
n_a = 10
n_a_c = 5
n_a_c_d = 3
n_a_c_e = 4
# Define the schema for the DataFrame
schema_a = StructType([StructField("id1", StringType(), True)])
schema_a_b = StructType(
[
StructField("id1", StringType(), True),
StructField("id2", StringType(), True),
StructField("extra", StringType(), True),
]
)
schema_a_c = StructType(
[ …Run Code Online (Sandbox Code Playgroud) 每当我groupByKey在RDD上进行操作时,即使原始表非常大,例如2k分区和数千万行,它也会分成200个作业.
此外,操作似乎停留在最后两个需要很长时间才能计算的任务上.
为什么是200?如何增加它,它会有帮助吗?