假设我有一个火花数据帧df1,有几列(其中列'id')和数据帧df2有两列,'id'和'other'.
有没有办法复制以下命令
sqlContext.sql("SELECT df1.*, df2.other FROM df1 JOIN df2 ON df1.id = df2.id")
Run Code Online (Sandbox Code Playgroud)
通过仅使用诸如join(),select()之类的pyspark函数?
我必须在函数中实现此连接,并且我不希望强制将sqlContext作为函数参数.
谢谢!