如何删除从Spark数据帧创建的表中的行？

Question

如何删除从Spark数据帧创建的表中的行？

ebe*_*tbm 4 apache-spark apache-spark-sql pyspark

基本上,我想使用SQL语句进行简单的删除,但是当我执行sql脚本时,它会抛出以下错误:

pyspark.sql.utils.ParseException:u"\'''''''''''''''''''''''''''''''''''''''''''=' --------------------- ^^^ \n"

这些是我正在使用的脚本:

sq = SparkSession.builder.config('spark.rpc.message.maxSize','1536').config("spark.sql.shuffle.partitions",str(shuffle_value)).getOrCreate()
adsquare = sq.read.csv(f, schema=adsquareSchemaDevice , sep=";", header=True)
adsquare_grid = adsqaureJoined.select("userid", "latitude", "longitude").repartition(1000).cache()
adsquare_grid.createOrReplaceTempView("adsquare")   

sql = """
    DELETE a.* FROM adsquare a
    INNER JOIN codepoint c ON a.grid_id = c.grid_explode
    WHERE dis2 > 1 """

sq.sql(sql)

Run Code Online (Sandbox Code Playgroud)

注意:代码点表是在执行期间创建的.

有没有其他方法可以删除具有上述条件的行？

Answer 1

Sha*_*ala 7

Apache Spark中的数据帧是不可变的.因此,您无法更改它,要从数据框中删除行,您可以过滤您不想要的行并保存在另一个数据帧中.

Answer 2

Man*_*waj 6

您无法从数据框中删除行.但您可以创建新的数据框,以排除不需要的记录.

sql = """
    Select a.* FROM adsquare a
    INNER JOIN codepoint c ON a.grid_id = c.grid_explode
    WHERE dis2 <= 1 """

sq.sql(sql)

Run Code Online (Sandbox Code Playgroud)

通过这种方式,您可以创建新的数据框.在这里我使用了反向条件dis2 <= 1

归档时间：	8 年，10 月前
查看次数：	17398 次
最近记录：	8 年，10 月前