小编bob*_*o32的帖子

如何在spark(scala)中将WrappedArray [WrappedArray [Float]]转换为Array [Array [Float]]

我使用Spark 2.0.我的数据WrappedArray框列中包含一个Florap的WrappedArrays.

一行的示例是:

[[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]]

Run Code Online (Sandbox Code Playgroud)

我试图将这个专栏改造成一个Array[Array[Float]].

到目前为止我尝试的是以下内容:

dataframe.select("mycolumn").rdd.map(r => r.asInstanceOf[Array[Array[Float]]])

Run Code Online (Sandbox Code Playgroud)

但是我收到以下错误:

Caused by: java.lang.ClassCastException:
 org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema cannot be cast to [[F

Run Code Online (Sandbox Code Playgroud)

任何想法都将受到高度赞赏.谢谢

arrays casting scala spark-dataframe apache-spark-2.0

bob*_*o32

2017 01-28

6
推荐指数

1
解决办法

9719
查看次数

通过Hue在hadoop中加载大型csv只会存储一个64MB的块

我正在使用Cloudera quickstart vm 5.1.0-1

我试图通过Hue将3GB的csv加载到Hadoop中，到目前为止，我尝试的是：-将csv加载到HDFS中，尤其是加载到名为/ user / hive / datasets的名为datasets的文件夹中-使用Metastore Manager将其加载到默认数据库

一切正常，这意味着我设法在正确的列中加载它。主要问题是，当我使用Impala查询表时，启动以下查询：

显示表格统计信息new_table

我意识到大小仅为64 MB，而不是csv的实际大小（应为3GB）。

另外，如果我通过Impala执行count（*），则行数仅为70000，而实际为700万。

任何帮助将不胜感激。

提前致谢。

hadoop hive cloudera hue impala

bob*_*o32

2014 10-17

4
推荐指数

1
解决办法

3068
查看次数

Spark 1.6的多类SVM？

我使用Spark运行了多类Logistic回归,但我想使用SVM来交叉验证结果.看起来Spark 1.6只支持SVM二进制分类.我应该使用其他工具来做到这一点吗？例如H20？

scala svm logistic-regression apache-spark h2o

bob*_*o32

lucky-day

4
推荐指数

1
解决办法

873
查看次数

如何使用Neo4j嵌套查询？

我正在尝试使用Java进行一种嵌套Neo4j查询，该查询首先标记节点的子集，然后尝试匹配其中的某些模式。更具体地说，这就像合并2个此类查询：

1-匹配（n）-[r：RELATIONSHIP * 1..3]->（m）设置m：LABEL

2-匹配（p：LABEL）-[r2：RELATIONSHIP]->（q：OTHERLABEL），其中r2.time <100返回p，r2，q

有没有一种方法可以使用Java函数engine.execute（）将两个查询合并为一个？

java neo4j nested-query

bob*_*o32

lucky-day

2
推荐指数

1
解决办法

2140
查看次数

SparkSQL时间戳查询失败

我通过Spark将一些日志文件放入sql表中,我的架构如下所示:

|-- timestamp: timestamp (nullable = true) 
|-- c_ip: string (nullable = true) 
|-- cs_username: string (nullable = true) 
|-- s_ip: string (nullable = true) 
|-- s_port: string (nullable = true) 
|-- cs_method: string (nullable = true) 
|-- cs_uri_stem: string (nullable = true) 
|-- cs_query: string (nullable = true) 
|-- sc_status: integer (nullable = false) 
|-- sc_bytes: integer (nullable = false) 
|-- cs_bytes: integer (nullable = false) 
|-- time_taken: integer (nullable = false) 
|-- User_Agent: string (nullable = true) 
|-- …

Run Code Online (Sandbox Code Playgroud)

timestamp scala apache-spark apache-spark-sql

bob*_*o32

lucky-day

2
推荐指数

2
解决办法

9776
查看次数