小编bob*_*o32的帖子

如何在spark(scala)中将WrappedArray [WrappedArray [Float]]转换为Array [Array [Float]]

我使用Spark 2.0.我的数据WrappedArray框列中包含一个Florap的WrappedArrays.

一行的示例是:

[[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]]
Run Code Online (Sandbox Code Playgroud)

我试图将这个专栏改造成一个Array[Array[Float]].

到目前为止我尝试的是以下内容:

dataframe.select("mycolumn").rdd.map(r => r.asInstanceOf[Array[Array[Float]]])
Run Code Online (Sandbox Code Playgroud)

但是我收到以下错误:

Caused by: java.lang.ClassCastException:
 org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema cannot be cast to [[F
Run Code Online (Sandbox Code Playgroud)

任何想法都将受到高度赞赏.谢谢

arrays casting scala spark-dataframe apache-spark-2.0

6
推荐指数
1
解决办法
9719
查看次数

通过Hue在hadoop中加载大型csv只会存储一个64MB的块

我正在使用Cloudera quickstart vm 5.1.0-1

我试图通过Hue将3GB的csv加载到Hadoop中,到目前为止,我尝试的是:-将csv加载到HDFS中,尤其是加载到名为/ user / hive / datasets的名为datasets的文件夹中-使用Metastore Manager将其加载到默认数据库

一切正常,这意味着我设法在正确的列中加载它。主要问题是,当我使用Impala查询表时,启动以下查询:

显示表格统计信息new_table

我意识到大小仅为64 MB,而不是csv的实际大小(应为3GB)。

另外,如果我通过Impala执行count(*),则行数仅为70000,而实际为700万。

任何帮助将不胜感激。

提前致谢。

hadoop hive cloudera hue impala

4
推荐指数
1
解决办法
3068
查看次数

Spark 1.6的多类SVM?

我使用Spark运行了多类Logistic回归,但我想使用SVM来交叉验证结果.看起来Spark 1.6只支持SVM二进制分类.我应该使用其他工具来做到这一点吗?例如H20?

scala svm logistic-regression apache-spark h2o

4
推荐指数
1
解决办法
873
查看次数

如何使用Neo4j嵌套查询?

我正在尝试使用Java进行一种嵌套Neo4j查询,该查询首先标记节点的子集,然后尝试匹配其中的某些模式。更具体地说,这就像合并2个此类查询:

1-匹配(n)-[r:RELATIONSHIP * 1..3]->(m)设置m:LABEL

2-匹配(p:LABEL)-[r2:RELATIONSHIP]->(q:OTHERLABEL),其中r2.time <100返回p,r2,q

有没有一种方法可以使用Java函数engine.execute()将两个查询合并为一个?

java neo4j nested-query

2
推荐指数
1
解决办法
2140
查看次数

SparkSQL时间戳查询失败

我通过Spark将一些日志文件放入sql表中,我的架构如下所示:

|-- timestamp: timestamp (nullable = true) 
|-- c_ip: string (nullable = true) 
|-- cs_username: string (nullable = true) 
|-- s_ip: string (nullable = true) 
|-- s_port: string (nullable = true) 
|-- cs_method: string (nullable = true) 
|-- cs_uri_stem: string (nullable = true) 
|-- cs_query: string (nullable = true) 
|-- sc_status: integer (nullable = false) 
|-- sc_bytes: integer (nullable = false) 
|-- cs_bytes: integer (nullable = false) 
|-- time_taken: integer (nullable = false) 
|-- User_Agent: string (nullable = true) 
|-- …
Run Code Online (Sandbox Code Playgroud)

timestamp scala apache-spark apache-spark-sql

2
推荐指数
2
解决办法
9776
查看次数