Van*_*era -1 vector apache-spark apache-spark-sql pyspark
我有一个df带有一列的 DataFrame ,column我想转换column成一个向量(例如 a DenseVector),以便我可以在向量和矩阵产品中使用它。
当心:我不需要一列向量;我需要一个矢量对象。
这该怎么做?
我找到了vectorAssembler函数(链接),但这对我没有帮助,因为它将一些 DataFrame 列转换为向量列,这仍然是一个 DataFrame 列;我想要的输出应该是一个向量。
关于这个问题的目标:为什么我要尝试将 DF 列转换为向量?假设我有一个带有数字列的 DF,我需要计算矩阵和该列之间的乘积。我怎样才能做到这一点?(同样适用于 DF 数字行。)欢迎使用任何替代方法。
小智 6
如何:
DenseVector(df.select("column_name").rdd.map(lambda x: x[0]).collect())
Run Code Online (Sandbox Code Playgroud)
但这在任何实际场景中都没有意义。
SparkVectors 不是分布式的,因此仅当数据适合一个(驱动程序)节点的内存时才适用。如果是这种情况,您就不会使用 SparkDataFrame进行处理。
| 归档时间: |
|
| 查看次数: |
3472 次 |
| 最近记录: |