小编lan*_*nok的帖子

使用 python 绘制正值小提琴图

我发现小提琴图信息丰富且有用，我使用 python 库“seaborn”。然而，当应用于正值时，它们几乎总是在低端显示负值。我发现这确实具有误导性，尤其是在处理现实数据集时。

在seaborn的官方文档中https://seaborn.pydata.org/ generated/seaborn.violinplot.html可以看到带有“total_bill”和“tip”的示例，它们不能为负数。然而，小提琴图显示负值。例如，

import seaborn as sns
sns.set(style="whitegrid")
tips = sns.load_dataset("tips")
ax = sns.violinplot(x="day", y="total_bill", hue="smoker",data=tips, palette="muted", split=True)

Run Code Online (Sandbox Code Playgroud)

我确实明白，这些负值来自高斯核。因此，我的问题是：有什么办法可以解决这个问题吗？python 中的另一个库？可以指定不同的内核吗？

python visualization data-analysis seaborn violin-plot

lan*_*nok

2020 01-24

8
推荐指数

1
解决办法

5215
查看次数

如何使用pyspark mllib RegressionMetrics进行实际预测

使用pyspark 1.4我试图使用RegressionMetrics()进行LinearRegressionWithSGD生成的预测.

在pyspark mllib文档中给出的RegressionMetrics()的所有示例都用于"人工"预测和观察

predictionAndObservations = sc.parallelize([ (2.5, 3.0), (0.0, -0.5), (2.0, 2.0), (8.0, 7.0)])

Run Code Online (Sandbox Code Playgroud)

对于这样的"人工"(用sc.parallelize生成)RDD一切正常.但是,当用另一种方式生成的另一个RDD做同样的事情时,我得到了

TypeError: DoubleType can not accept object in type <type 'numpy.float64'>

Run Code Online (Sandbox Code Playgroud)

简短可重复的例子如下.

可能是什么问题？

from pyspark.mllib.regression import LabeledPoint
from pyspark.mllib.regression import LinearRegressionWithSGD, LinearRegressionModel
from pyspark.mllib.evaluation import RegressionMetrics

dataRDD = sc.parallelize([LabeledPoint(1, [1,1]), LabeledPoint(2, [2,2]), LabeledPoint(3, [3,3])])
lrModel = LinearRegressionWithSGD.train(dataRDD)
prediObserRDD = dataRDD.map(lambda p: (lrModel.predict(p.features), p.label)).cache()

Run Code Online (Sandbox Code Playgroud)

让我们检查RDD确实是(预测,观察)对

prediObserRDD.take(4) # looks OK

Run Code Online (Sandbox Code Playgroud)

现在尝试计算指标

metrics = RegressionMetrics(prediObserRDD)

Run Code Online (Sandbox Code Playgroud)

它给出以下错误

TypeError                                 Traceback (most recent call last)
<ipython-input-1-ca9ad8e9faf1> in <module>()
      7 …

Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark apache-spark-mllib

lan*_*nok

2016 04-25

4
推荐指数

1
解决办法

5126
查看次数

标签统计

apache-spark ×1

apache-spark-mllib ×1

data-analysis ×1

pyspark ×1

python ×1

seaborn ×1

violin-plot ×1

visualization ×1

使用 python 绘制正值小提琴图

如何使用pyspark mllib RegressionMetrics进行实际预测

标签 统计

小编lan_nok的帖子

标签统计