小编Yua*_* JI的帖子

Spark数据帧将列值获取为字符串变量

我正在尝试将列值提取到变量中,以便我可以在代码中的其他位置使用该值.我想尝试如下

 val name= test.filter(test("id").equalTo("200")).select("name").col("name")
Run Code Online (Sandbox Code Playgroud)

它回来了

 name org.apache.spark.sql.Column = name
Run Code Online (Sandbox Code Playgroud)

如何获得价值?

scala dataframe apache-spark apache-spark-sql

14
推荐指数
4
解决办法
5万
查看次数

想法sbt java.lang.NoClassDefFoundError:org/apache/spark/SparkConf

我是spark的初学者.我构建了一个环境使用"linux + idea + sbt",当我尝试Spark的快速启动时,我遇到了问题:

    Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf
    at test$.main(test.scala:11)
    at test.main(test.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:144)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.SparkConf
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 7 more
Run Code Online (Sandbox Code Playgroud)

我的磁盘中的版本:

sbt   = 0.13.11
jdk   = 1.8
scala = 2.10
idea  = 2016
Run Code Online (Sandbox Code Playgroud)

我的目录结构:

test/
  idea/
  out/
  project/
    build.properties    
    plugins.sbt
  src/
    main/
      java/
      resources/
      scala/
      scala-2.10/
        test.scala
  target/
  assembly.sbt
  build.sbt
Run Code Online (Sandbox Code Playgroud)

在build.properties中:

sbt.version = 0.13.8
Run Code Online (Sandbox Code Playgroud)

在plugins.sbt中:

logLevel := Level.Warn

addSbtPlugin("com.github.mpeltonen" …
Run Code Online (Sandbox Code Playgroud)

scala sbt apache-spark

10
推荐指数
3
解决办法
2万
查看次数

Spark:条件表达式和列操作

我有一个具有以下架构的数据框:

|- colA (Int)
|- colB (Int)
|- cnt  (Int)
Run Code Online (Sandbox Code Playgroud)

我想执行以下条件表达式(伪代码):

if cnt > 1: 
  colC = colA + colB
else: 
  colC = colA
Run Code Online (Sandbox Code Playgroud)

在上面的例子中,colC是用withColumn函数创建的新列。

我不想做一个collectcnt

apache-spark spark-dataframe

4
推荐指数
1
解决办法
3971
查看次数

Apache Spark,Java中使用List <?>作为第一个参数的createDataFrame示例

有人可以给出public DataFrame createDataFrame(java.util.List<?> data,java.lang.Class<?> beanClass) Spark JavaDoc中提到的Java 函数实现示例 吗?

我有一个JSON字符串列表,我作为第一个参数传递,因此我String.class作为第二个参数传递,但是它给出了一个错误

java.lang.ClassCastException: org.apache.spark.sql.types.StringType$ cannot be cast to org.apache.spark.sql.types.StructType
Run Code Online (Sandbox Code Playgroud)

不知道为什么,因此寻找一个例子。

java apache-spark apache-spark-sql

4
推荐指数
2
解决办法
7206
查看次数

spark检查点“.bk”和“.crc”文件的作用是什么?

当我们为 Spark Streaming 应用程序设置检查点目录时,它会生成一个这样的目录:

root@55330815baa7:/usr/local/spark/checkpoint# ll
total 184
drwxr-xr-x  6 root root  4096 May 25 16:35 ./
drwxr-xr-x 18  500  500  4096 May 25 16:19 ../
drwxr-xr-x  2 root root  4096 May 25 16:19 643d19eb-b24b-4664-a865-a263bdd97625/
drwxr-xr-x  2 root root  4096 May 25 16:34 71b2204c-8762-4d75-bb34-f9b1b7a9b530/
drwxr-xr-x  2 root root  4096 May 25 16:19 c946e058-220e-4ae5-8db2-393c00b845d0/
-rw-r--r--  1 root root  9658 May 25 16:35 checkpoint-1464193230000
-rw-r--r--  1 root root    84 May 25 16:35 .checkpoint-1464193230000.bk
-rw-r--r--  1 root root    84 May 25 16:35 .checkpoint-1464193230000.crc …
Run Code Online (Sandbox Code Playgroud)

python java scala crc apache-spark

2
推荐指数
1
解决办法
2538
查看次数