小编Kou*_*dra的帖子

ClassNotFoundException:org.apache.spark.SparkConf与hive上的spark

我试图使用SPARK作为hive执行引擎,但得到以下错误.已安装Spark 1.5.0,我正在使用Hado 1.1.0版本和Hadoop 2.7.0版本.

hive_emp table在hive中创建为ORC格式表.

hive (Koushik)> insert into table hive_emp values (2,'Koushik',1);
Query ID = hduser_20150921072727_feba8363-258d-4d0b-8976-662e404bca88
Total jobs = 1
Launching Job 1 out of 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
java.lang.NoClassDefFoundError: org/apache/spark/SparkConf
    at org.apache.hadoop.hive.ql.exec.spark.HiveSparkClientFactory.generateSparkConf(HiveSparkClientFactory.java:140)
    at org.apache.hadoop.hive.ql.exec.spark.HiveSparkClientFactory.createHiveSparkClient(HiveSparkClientFactory.java:56)
    at org.apache.hadoop.hive.ql.exec.spark.session.SparkSessionImpl.open(SparkSessionImpl.java:55)
    at org.apache.hadoop.hive.ql.exec.spark.session.SparkSessionManagerImpl.getSession(SparkSessionManagerImpl.java:116)
    at org.apache.hadoop.hive.ql.exec.spark.SparkUtilities.getSparkSession(SparkUtilities.java:113)
    at org.apache.hadoop.hive.ql.exec.spark.SparkTask.execute(SparkTask.java:95)
    at org.apache.hadoop.hive.ql.exec.Task.executeTask(Task.java:160) …

Run Code Online (Sandbox Code Playgroud)

hadoop hive apache-spark

Kou*_*dra

2015 10-21

13
推荐指数

1
解决办法

8805
查看次数

如何压制"拾起JAVA_TOOL_OPTIONS:-javaagent:/usr/share/java/jayatanaag.jar"的消息

我使用的是Ubuntu 15.04和Java 1.7.更新到15.04后,每当我输入任何Java命令时,我都会收到如下消息:

Picked up JAVA_TOOL_OPTIONS: -javaagent:/usr/share/java/jayatanaag.jar

Run Code Online (Sandbox Code Playgroud)

例如:

hduser@ubuntu:~$ java -version
Picked up JAVA_TOOL_OPTIONS: -javaagent:/usr/share/java/jayatanaag.jar
java version "1.7.0_21"
Java(TM) SE Runtime Environment (build 1.7.0_21-b11)
Java HotSpot(TM) 64-Bit Server VM (build 23.21-b01, mixed mode)



我怎么能抑制这种行为？


    
    
    
      
        
            如何使用spark上下文访问Web URL
        
        我试图使用textFile方法从spark-shell使用WEB URL,但是收到错误.可能这不是正确的方法.那么有人可以告诉我如何从spark上下文访问Web URL.

我正在使用spark版本1.3.0; Scala版本2.10.4和Java 1.7.0_21



hduser@ubuntu:~$ spark-shell
Spark assembly has been built with Hive, including Datanucleus jars on classpath
Welcome to
      __              
     / /   / /
    \ \/  \/  `/ _/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 1.3.0
      /_/

Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_21)
Type in expressions to have them evaluated.
Type :help for more information.
Spark context available as sc.
SQL context available as sqlContext.

scala> val pagecount = sc.textFile( "https://www.google.co.in/?gws_rd=ssl" )
pagecount: …
Run Code Online (Sandbox Code Playgroud)
 
        
          apache-spark
        
        
          
            
            
               Kou*_*dra
            
          
          
            
               lucky-day 
            
          
        
      
      
        
          
          8
推荐指数
          1
解决办法
          1万
查看次数
          
        
      
    
    
    
    
      
        
            一定数量后的蜂巢自动增量
        
        我有一个将数据插入目标表,其中所有列应从不同的源表填充,除了代理键列; 这应该是目标表的最大值加上自动增量值的开始1.我可以使用row_number()函数生成自动增量值,但在同一查询中,我应如何从目标表中获取代理键的最大值.在HIVE中是否有任何概念我可以选择代理键的最大值并将其保存在临时变量中？或者有没有其他简单的方法来实现这个结果？
 
        
          hive
        
        
          
            
            
               Kou*_*dra
            
          
          
            
               lucky-day 
            
          
        
      
      
        
          
          8
推荐指数
          1
解决办法
          5063
查看次数
          
        
      
    
    
    
    
      
        
            在pyspark中实现MERGE INTO sql
        
        怎么可以有问题(pyspark)sql MERGE INTO语句可以实现.我有两个表,我使用createOrReplaceTempView选项将表放入临时视图中.然后我尝试在这两个临时视图上使用MERGE INTO语句.但它失败了.原因可能是SPARK SQL不支持MERGE.有人可以提示如何在pyspark中以编程方式实现简单的MERGE INTO SQL等效语句(如下所示).

MERGE INTO events
USING updates
ON events.eventId = updates.eventId
WHEN MATCHED THEN
  UPDATE SET
    events.data = updates.data
WHEN NOT MATCHED
  THEN INSERT (date, eventId, data) VALUES (date, eventId, data)
Run Code Online (Sandbox Code Playgroud) 
        
          sql
        
          merge
        
          apache-spark-sql
        
          pyspark
        
        
          
            
            
               Kou*_*dra
            
          
          
            
               lucky-day 
            
          
        
      
      
        
          
          8
推荐指数
          1
解决办法
          856
查看次数
          
        
      
    
    
    
    
      
        
            如何以递归方式列出HDFS的子目录？
        
        我有一组以递归方式在HDFS中创建的目录.如何列出所有目录？对于普通的unix文件系统,我可以使用下面的命令来完成

find /path/ -type d -print
Run Code Online (Sandbox Code Playgroud)

但我想为HDFS得到类似的东西.
 
        
          hadoop
        
          list
        
          find
        
          hdfs
        
        
          
            
            
               Kou*_*dra
            
          
          
            
               2016 09-10 
            
          
        
      
      
        
          
          6
推荐指数
          2
解决办法
          7216
查看次数
          
        
      
    
    
    
    
      
        
            使用AWK进行字数统计
        
        我有如下文件:

这是一个示例文件,该文件将用于测试

this is a sample file
this file will be used for testing
Run Code Online (Sandbox Code Playgroud)

我想用AWK计算单词.

预期的产出是 

this 2
is 1
a 1
sample 1
file 2
will 1
be 1
used 1
for 1
Run Code Online (Sandbox Code Playgroud)

以下AWK我写过,但得到一些错误

cat anyfile.txt|awk -F" "'{for(i=1;i<=NF;i++) a[$i]++} END {for(k in a) print k,a[k]}'
Run Code Online (Sandbox Code Playgroud) 
        
          awk
        
        
          
            
            
               Kou*_*dra
            
          
          
            
               2015 02-20 
            
          
        
      
      
        
          
          5
推荐指数
          1
解决办法
          2万
查看次数
          
        
      
    
    
    
    
      
        
            Spark-连接异常失败：java.net.ConnectException-本地主机
        
        我在一台机器上运行hadoop和spark（Ubuntu 14.04）。JPS命令给我下面的输出

hduser@ubuntu:~$ jps
4370 HRegionServer
6568 Jps
5555 RunJar
3744 TaskTracker
5341 RunJar
4120 HQuorumPeer
5790 SparkSubmit
3308 DataNode
4203 HMaster
3469 SecondaryNameNode
3079 NameNode
3587 JobTracker
Run Code Online (Sandbox Code Playgroud)

我在HDFS中创建了一个简单的csv文件。文件的以下详细信息。

hduser@ubuntu:~$ hadoop fs -ls /user/hduser/file_for_spark/spark1.csv
Warning: $HADOOP_HOME is deprecated.

Found 1 items
-rw-r--r--   1 hduser supergroup        174 2015-04-16 08:14 /user/hduser/file_for_spark/spark1.csv
Run Code Online (Sandbox Code Playgroud)

但是，当尝试从spark访问文件时，出现连接异常失败：java.net.ConnectException：连接被拒绝错误

          ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 1.3.0
      /_/

Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, …
Run Code Online (Sandbox Code Playgroud) 
        
          hadoop
        
          apache-spark
        
        
          
            
            
               Kou*_*dra
            
          
          
            
               2015 06-18 
            
          
        
      
      
        
          
          5
推荐指数
          1
解决办法
          2万
查看次数
          
        
      
    
    
    
    
      
        
            如何在shell中加密和解密字符串/文本（linux环境）
        
        我有一个字符串，它实际上是密码。我想加密字符串并将加密结果存储在参数文件中。接下来在脚本执行期间，加密字符串将被提取并在运行时被解密。所以我想知道如何在linux环境中加密和解密字符串/文本？
 
        
          linux
        
        
          
            
            
               Kou*_*dra
            
          
          
            
               lucky-day 
            
          
        
      
      
        
          
          5
推荐指数
          2
解决办法
          2万
查看次数
          
        
      
    
    
    
    
      
        
            将Spyder IDE连接到远程Cloudea环境
        
        我在我的本地Windows机器上安装了Anaconda3(64位),其中安装了Spyder IDE.我想将Spyder IDE连接到Cloudera Hadoop集群,以便我可以在Spyder IDE中为该远程Cloudera Hadoop集群编写我的PYSPARK脚本.连接到远程集群并从本地Windows机器执行pyspark代码时,我必须遵循哪些步骤.
 
        
          ide
        
          cloudera
        
          spyder
        
          anaconda
        
          pyspark
        
        
          
            
            
               Kou*_*dra
            
          
          
            
               2019 04-06 
            
          
        
      
      
        
          
          5
推荐指数
          0
解决办法
          123
查看次数


  
    
      标签 统计
      
      
        apache-spark  ×3
      
      
        hadoop  ×3
      
      
        hive  ×2
      
      
        pyspark  ×2
      
      
        anaconda  ×1
      
      
        apache-spark-sql  ×1
      
      
        awk  ×1
      
      
        cloudera  ×1
      
      
        find  ×1
      
      
        hdfs  ×1
      
      
        ide  ×1
      
      
        java  ×1
      
      
        linux  ×1
      
      
        list  ×1
      
      
        merge  ×1
      
      
        spyder  ×1
      
      
        sql  ×1
      
      
        ubuntu  ×1

小编Kou_dra的帖子

ClassNotFoundException:org.apache.spark.SparkConf与hive上的spark

如何压制"拾起JAVA_TOOL_OPTIONS:-javaagent:/usr/share/java/jayatanaag.jar"的消息

如何使用spark上下文访问Web URL

一定数量后的蜂巢自动增量

在pyspark中实现MERGE INTO sql

如何以递归方式列出HDFS的子目录？

使用AWK进行字数统计

Spark-连接异常失败：java.net.ConnectException-本地主机

如何在shell中加密和解密字符串/文本（linux环境）

将Spyder IDE连接到远程Cloudea环境

标签统计

标签 统计

小编Kou_dra的帖子

标签统计