相关疑难解决方法(0)

Pyspark KMeans 聚类特征列 IllegalArgumentException

pyspark==2.4.0

Run Code Online (Sandbox Code Playgroud)

这是给出异常的代码：

LDA = spark.read.parquet('./LDA.parquet/')
LDA.printSchema()

from pyspark.ml.clustering import KMeans
from pyspark.ml.evaluation import ClusteringEvaluator

kmeans = KMeans(featuresCol='topic_vector_fix_dim').setK(15).setSeed(1)
model = kmeans.fit(LDA)

Run Code Online (Sandbox Code Playgroud)

root
|-- Id: string (nullable = true)
|-- topic_vector_fix_dim: array (nullable = true)
| |-- 元素：double (containsNull = true)

IllegalArgumentException: '要求失败：列 topic_vector_fix_dim 的类型必须等于以下类型之一：[struct < type:tinyint,size:int,indices:array < int >,values:array < double > >, array < double > , array < float > ] 但实际上是array < double >类型。'

我很困惑 - 它不喜欢 my array <double>，但说它可能是输入。topic_vector_fix_dim 的
每个条目都是一个一维浮点数数组

python pyspark

Art*_*sky

2019 03-14

5
推荐指数

1
解决办法

1900
查看次数

标签统计

pyspark ×1

python ×1

Pyspark KMeans 聚类特征列 IllegalArgumentException

标签 统计

标签统计