PySpark Sql，列名中包含破折号/连字符

Question

PySpark Sql，列名中包含破折号/连字符

我有 PySpark 数据框 df

data = {'Passenger-Id': {0: 1, 1: 2, 2: 3, 3: 4, 4: 5},'Age': {0: 22, 1: 38, 2: 26, 3: 35, 4: 35}}
df_pd = pd.DataFrame(data, columns=data.keys())
df = spark.createDataFrame(df_pd)

Run Code Online (Sandbox Code Playgroud)

+------------+---+
|Passenger-Id|Age|
+------------+---+
|           1| 22|
|           2| 38|
|           3| 26|
|           4| 35|
|           5| 35|
+------------+---+

Run Code Online (Sandbox Code Playgroud)

这有效

   df.filter(df.Age == 22).show()

Run Code Online (Sandbox Code Playgroud)

但下面不起作用，因为 - 在列名称中

    df.filter(df.Passenger-Id == 2).show()

Run Code Online (Sandbox Code Playgroud)

AttributeError：“DataFrame”对象没有属性“Passenger”

我在 Spark sql 中也遇到了同样的问题，

        spark.sql("SELECT  Passenger-Id FROM AutoMobile").show()

        spark.sql("SELECT  automobile.Passenger-Id FROM AutoMobile").show()

Run Code Online (Sandbox Code Playgroud)

出现以下错误

AnalysisException：无法解析Passenger给定输入列的“”：[automobile.Age，automobile.Passenger-Id]

尝试按照某些来源的建议用单引号给出列名，现在它只打印查询中提到的列

  spark.sql("SELECT  'Passenger-Id' FROM AutoMobile").show()

Run Code Online (Sandbox Code Playgroud)

+------------+
|Passenger-Id|
+------------+
|Passenger-Id|
|Passenger-Id|
|Passenger-Id|
|Passenger-Id|
|Passenger-Id|
+------------+

Run Code Online (Sandbox Code Playgroud)

Answer 1

A.B*_*A.B 6

由于列名中有 hiphen，我建议您使用col()来自的函数sql.functions

import pyspark.sql.functions as F
df.filter(F.col('Passenger-Id')== 2).show()

Run Code Online (Sandbox Code Playgroud)

这是结果

+------------+---+
|Passenger-Id|Age|
+------------+---+
|           2| 38|
+------------+---+

Run Code Online (Sandbox Code Playgroud)

Noe 对于 sql 语法，您需要使用特殊字符“`”而不是单引号，如下所示

df.createOrReplaceTempView("AutoMobile")
spark.sql("SELECT  * FROM AutoMobile where `Passenger-Id`=2").show()

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，8 月前
查看次数：	2579 次
最近记录：	3 年，7 月前