小编mal*_*uke的帖子

pyspark加入多个条件

我想问一下,当我使用.join()时,你是否知道如何在pyspark中指定很多条件

示例:with hive:

query= "select a.NUMCNT,b.NUMCNT as RNUMCNT ,a.POLE,b.POLE as RPOLE,a.ACTIVITE,b.ACTIVITE as RACTIVITE FROM rapexp201412 b \
    join rapexp201412 a where (a.NUMCNT=b.NUMCNT and a.ACTIVITE = b.ACTIVITE and a.POLE =b.POLE  )\
Run Code Online (Sandbox Code Playgroud)

但是在pyspark我不知道怎么做,因为以下内容:

df_rapexp201412.join(df_aeveh,df_rapexp2014.ACTIVITE==df_rapexp2014.ACTIVITE and df_rapexp2014.POLE==df_aeveh.POLE,'inner')
Run Code Online (Sandbox Code Playgroud)

不起作用!!

apache-spark pyspark

9
推荐指数
3
解决办法
3万
查看次数

HIVE用正则表达式选择列名?

我想知道是否可以查询某些描述的起始列的hive术语rehiliare选择中的列?

示例:具有此列名称列表的图表pattern1 pattern2 motif3 balab1 balabal2 ma1 ma2 ma3

从表中选择(具有模式的选择列初学者的表达式)

谢谢

hive

1
推荐指数
1
解决办法
7492
查看次数

标签 统计

apache-spark ×1

hive ×1

pyspark ×1