小编Kab*_*ard的帖子

SKlearn SGD Partial Fit

我在这做错了什么？我有一个大型数据集,我想使用Scikit-learn的SGDClassifier进行部分调整

我做了以下事情

from sklearn.linear_model import SGDClassifier
import pandas as pd

chunksize = 5
clf2 = SGDClassifier(loss='log', penalty="l2")

for train_df in pd.read_csv("train.csv", chunksize=chunksize, iterator=True):
    X = train_df[features_columns]
    Y = train_df["clicked"]
    clf2.partial_fit(X, Y)

Run Code Online (Sandbox Code Playgroud)

我收到了错误

回溯(最近一次调用最后一次):文件"/predict.py",第48行,在sys.exit中(0如果是main()else 1)文件"/predict.py",第44行,在main predict()文件中/predict.py",第38行,预测clf2.partial_fit(X,Y)文件"/Users/anaconda/lib/python3.5/site-packages/sklearn/linear_model/stochastic_gradient.py",第512行,在partial_fit中coef_init = None,intercept_init = None)文件"/Users/anaconda/lib/python3.5/site-packages/sklearn/linear_model/stochastic_gradient.py",第349行,在_partial_fit _check_partial_fit_first_call(self,classes)文件"/ Users/anaconda/lib/python3.5/site-packages/sklearn/utils/multiclass.py",第297行,在_check_partial_fit_first_call中引发ValueError("类必须在第一次调用时传递"ValueError:必须在第一次调用时传递类partial_fit.

python scikit-learn

Kab*_*ard

lucky-day

8
推荐指数

1
解决办法

4735
查看次数

对测试数据集使用 cross_val_predict

我对在测试数据集中使用 cross_val_predict 感到困惑。

我创建了一个简单的随机森林模型并使用 cross_val_predict 进行预测

from sklearn.ensemble import RandomForestClassifier
from sklearn.cross_validation import cross_val_predict, KFold

lr = RandomForestClassifier(random_state=1, class_weight="balanced", n_estimators=25, max_depth=6)
kf = KFold(train_df.shape[0], random_state=1)
predictions = cross_val_predict(lr,train_df[features_columns], train_df["target"], cv=kf)
predictions = pd.Series(predictions)

Run Code Online (Sandbox Code Playgroud)

我对这里的下一步感到困惑，我如何使用上面学到的知识对测试数据集进行预测？

python machine-learning scikit-learn data-science

Kab*_*ard

lucky-day

6
推荐指数

1
解决办法

5050
查看次数

如何在气泡图中显示尺寸图例？

我有一个气泡图，颜色定义为度量1。大小定义为度量2。文本定义为属性1。

当我将工作表拖到仪表板并从工作表中选择下拉菜单时，将鼠标悬停在图例上。我看到“颜色”图例已激活，但“尺寸”显示为灰色。如何显示尺寸图例？

谢谢

tableau-api

Kab*_*ard

2016 08-20

3
推荐指数

1
解决办法

4857
查看次数

如何在pyspark.sql中选择创建表

是否可以使用select语句在spark上创建表？

我做以下

import findspark
findspark.init()
import pyspark
from pyspark.sql import SQLContext

sc = pyspark.SparkContext()
sqlCtx = SQLContext(sc)

spark_df = sqlCtx.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load("./data/documents_topics.csv")
spark_df.registerTempTable("my_table")

sqlCtx.sql("CREATE TABLE my_table_2 AS SELECT * from my_table")

Run Code Online (Sandbox Code Playgroud)

但我得到了错误

/ Users / user / anaconda / bin / python /Users/user/workspace/Outbrain-Click-Prediction/test.py使用Spark的默认log4j配置文件：org / apache / spark / log4j-defaults.properties将默认日志级别设置为“ WARN” ”。要调整日志记录级别，请使用sc.setLogLevel（newLevel）。17/01/21 17:19:43 WARN NativeCodeLoader：无法在适用的平台上使用内置的Java类为您的平台加载本机Hadoop库。Traceback（最近一次调用为最新）：File“ / Users / user / spark- 2.0.2-bin-hadoop2.7 / python / pyspark / sql / utils.py“，第63行，在装饰返回f（* a，** kw）文件“ /Users/user/spark-2.0.2-bin”中-hadoop2.7 / python / lib / py4j-0.10.3-src.zip / py4j / …

python apache-spark pyspark pyspark-sql

Kab*_*ard

2017 01-22

3
推荐指数

1
解决办法

1万
查看次数

MAE实际上告诉我什么？

我创建了一个简单的线性回归模型来预测标准普尔500指数的收盘价.然后计算平均绝对误差(MAE)并得到1290的MAE分数.现在,我不想知道这是对还是错,但我想知道1290的MAE告诉我关于我的模型的内容.

machine-learning data-science

Kab*_*ard

lucky-day

2
推荐指数

1
解决办法

2849
查看次数

如何在字符串中查找最后一个char？

我想/在字符串中找到最后一个正斜杠的索引.例如,我有字符串/test1/test2/test3,我想在之前找到斜杠的位置test3.我怎样才能做到这一点？

在Python中,我会使用rfind但在Rust中找不到类似的东西.

string rust

Kab*_*ard

2018 04-30

2
推荐指数

1
解决办法

706
查看次数

如何为每个 matplotlib 子图显示 x 轴标签

我想在每个子图下方添加一个 x 轴标签。我使用此代码创建图表：

fig = plt.figure(figsize=(16,8))
ax1 = fig.add_subplot(1,3,1)
ax1.set_xlim([min(df1["Age"]),max(df1["Age"])])
ax1.set_xlabel("All Age Freq")
ax1 = df1["Age"].hist(color="cornflowerblue")

ax2 = fig.add_subplot(1,3,2)
ax2.set_xlim([min(df2["Age"]),max(df2["Age"])])
ax2.set_xlabel = "Survived by Age Freq"
ax2 = df2["Age"].hist(color="seagreen")

ax3 = fig.add_subplot(1,3,3)
ax3.set_xlim([min(df3["Age"]),max(df3["Age"])])
ax3.set_xlabel = "Not Survived by Age Freq"
ax3 = df3["Age"].hist(color="cadetblue")

plt.show()

Run Code Online (Sandbox Code Playgroud)

这是它的样子。只显示第一个