小编use*_*344的帖子

如何在Hive中使用NOT IN

假设我有2个表,如下所示.现在,如果我想获得sql将使用的结果,insert into B where id not in(select id from A) 将3 George在表B中插入.

如何在蜂巢中实现这一点？

表A.

id  name      
1   Rahul     
2   Keshav    
3   George

Run Code Online (Sandbox Code Playgroud)

表B.

id  name      
1   Rahul     
2   Keshav    
4   Yogesh

Run Code Online (Sandbox Code Playgroud)

hadoop hive bigdata

use*_*344

2017 09-23

7
推荐指数

1
解决办法

2万
查看次数

如何从 hive cli 运行 hive 脚本

我现在有 hive 脚本 custsales.hql 我想从 hive cli 运行它

hive (pract5)> run /user/training/hdfs_location/custsales.hql

Run Code Online (Sandbox Code Playgroud)

但它不执行。请指导。我知道我们可以从命令行运行它

$ hive -f /home/training/local_location/custsales.hql

Run Code Online (Sandbox Code Playgroud)

但这不是我的要求。

hadoop hive hivecli

use*_*344

2019 12-17

6
推荐指数

1
解决办法

5699
查看次数

如何为spark-shell设置YARN队列？

我正在Spark Shell中执行一些spark（scala）sql代码。我想知道我正在使用哪个队列，并且如果可能的话，我想知道我正在使用多少内存和执行程序，以及如何对其进行优化？

apache-spark apache-spark-sql

use*_*344

2018 12-31

3
推荐指数

1
解决办法

2523
查看次数

如何在spark sql(Scala)中解析url

我正在使用以下函数来解析 url 但它会抛出错误，

val b = Seq(("http://spark.apache.org/path?query=1"),("https://people.apache.org/~pwendell/spark-nightly/spark-master-docs/latest/api/sql/#negative")).toDF("url_col")
        .withColumn("host",parse_url($"url_col","HOST"))
        .withColumn("query",parse_url($"url_col","QUERY"))
        .show(false)

Run Code Online (Sandbox Code Playgroud)

错误：

<console>:285: error: not found: value parse_url
               .withColumn("host",parse_url($"url_col","HOST"))
                                  ^
<console>:286: error: not found: value parse_url
               .withColumn("query",parse_url($"url_col","QUERY"))
                                   ^

Run Code Online (Sandbox Code Playgroud)

请指导如何将 url 解析为不同的部分。

scala apache-spark

use*_*344

2018 08-27

2
推荐指数

2
解决办法

8589
查看次数