小编Xi *_*ang的帖子

PySpark 2.0 DataFrame的大小或形状

我试图找出PySpark中DataFrame的大小/形状.我没有看到一个可以做到这一点的功能.

在Python中,我可以做到

data.shape()

Run Code Online (Sandbox Code Playgroud)

PySpark中是否有类似的功能.这是我目前的解决方案,但我正在寻找一个元素

row_number = data.count()
column_number = len(data.dtypes)

Run Code Online (Sandbox Code Playgroud)

列数的计算并不理想......

size shape dataframe pyspark

Xi *_*ang

lucky-day

53
推荐指数

5
解决办法

8万
查看次数

pyspark错误:'DataFrame'对象没有属性'map'

我正在使用pyspark 2.0通过使用以下方法读取csv来创建DataFrame对象:

data = spark.read.csv('data.csv', header=True)

Run Code Online (Sandbox Code Playgroud)

我找到了使用的数据类型

type(data)

Run Code Online (Sandbox Code Playgroud)

结果是

pyspark.sql.dataframe.DataFrame

Run Code Online (Sandbox Code Playgroud)

我试图将数据中的一些列转换为LabeledPoint以应用分类.

from pyspark.sql.types import *    
from pyspark.sql.functions import loc
from pyspark.mllib.regression import LabeledPoint

data.select(['label','features']).
              map(lambda row:LabeledPoint(row.label, row.features))

Run Code Online (Sandbox Code Playgroud)

我遇到了这个问题:

AttributeError: 'DataFrame' object has no attribute 'map'

Run Code Online (Sandbox Code Playgroud)

对错误有任何想法吗？有没有办法从DataFrame生成LabelPoint才能执行分类？

apache-spark spark-dataframe apache-spark-2.0

Xi *_*ang

lucky-day

4
推荐指数

1
解决办法

1万
查看次数

标签统计

apache-spark ×1

apache-spark-2.0 ×1

dataframe ×1

pyspark ×1

shape ×1

size ×1

spark-dataframe ×1

PySpark 2.0 DataFrame的大小或形状

pyspark错误:'DataFrame'对象没有属性'map'

标签 统计

小编Xi _ang的帖子

标签统计