小编She*_*ly 的帖子

拆分数据集中的Python随机状态

我是python的新手.任何人都可以告诉我为什么我们在分裂列车和测试集中将随机状态设置为零.

X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size=0.30, random_state=0)

Run Code Online (Sandbox Code Playgroud)

我已经看到过这样的情况,其中随机状态设置为1!

X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size=0.30, random_state=1)

Run Code Online (Sandbox Code Playgroud)

交叉验证中这种随机状态的后果是什么？

python random machine-learning scikit-learn

She*_*ly

2017 02-13

25
推荐指数

6
解决办法

6万
查看次数

PYTHON 决策树可视化

[![在此处输入图像描述][1]][1]我想可视化我已应用于 pdf 或 png 文件中的数据的树决策分类器。我尝试通过以下代码使用 graphviz 进行可视化：

X_train, X_test, y_train, y_test = \
        train_test_split(X, y, test_size=0.30, random_state=1)

clf =tree.DecisionTreeClassifier(max_depth=43)
clf = clf.fit(X_train, y_train)
from sklearn.externals.six import StringIO  
import pydot 
dot_data = StringIO() 
tree.export_graphviz(clf, out_file=dot_data) 
graph = pydot.graph_from_dot_data(dot_data.getvalue()) 
graph[0].write_pdf("tree.pdf")

Run Code Online (Sandbox Code Playgroud)

但程序无法完成。一旦我收到内存不足的错误，第二次我收到错误“点停止工作”。由于这个问题，我想通过知道左孩子在哪里，右孩子或左孩子在哪里来了解这棵树？感谢您的任何回应和帮助

python decision-tree scikit-learn

She*_*ly

2017 03-19

5
推荐指数

1
解决办法

338
查看次数

如何在 Pandas Dataframe 中查找特定值

我已经将 csv 格式的数据导入到了熊猫中。谁能告诉我如何在我拥有的一列中找到 280 以上的值并将它们放入另一个数据框中。到目前为止，我已经完成了以下代码：

import numpy as np
import pandas as pd
df = pd.read_csv('...csv')

Run Code Online (Sandbox Code Playgroud)

部分数据如附图所示：在此处输入图片描述

python dataframe pandas

She*_*ly

lucky-day

4
推荐指数

1
解决办法

2万
查看次数

PYTHON 中的 tanh 估计器归一化

有人知道如何在python中实现tanh-estimator吗？我有一个不遵循高斯分布的数字列表。我想使用 tanh-estimator 作为预处理步骤，但我不知道如何在 python 中实现它，因为没有像 MinMaxScaler() 这样的定义函数。

提前致谢

python normalization

She*_*ly

lucky-day

3
推荐指数

2
解决办法

4728
查看次数

init （）得到了意外的关键字参数'n_splits'错误

我打算尝试此链接中的代码：

我从指向的行中得到了错误StratifiedKFold(n_splits=60)。谁能告诉我如何解决这个错误？

这是代码：

import numpy as np
from scipy import interp
import matplotlib.pyplot as plt
from itertools import cycle

from sklearn import svm, datasets
from sklearn.metrics import roc_curve, auc
from sklearn.cross_validation import StratifiedKFold

iris = datasets.load_iris()
X = iris.data
y = iris.target
X, y = X[y != 2], y
X, y

cv = StratifiedKFold(n_splits=6)
classifier = svm.SVC(kernel='linear', probability=True,
                     random_state=random_state)

mean_tpr = 0.0
mean_fpr = np.linspace(0, 1, 100)

Run Code Online (Sandbox Code Playgroud)

这是错误：

TypeError                                 Traceback (most recent call last)
<ipython-input-227-2af2773f4987> in …

Run Code Online (Sandbox Code Playgroud)

python scikit-learn cross-validation

She*_*ly

2017 04-16

0
推荐指数

1
解决办法

1万
查看次数

标签统计

python ×5

scikit-learn ×3

cross-validation ×1

dataframe ×1

decision-tree ×1

machine-learning ×1

normalization ×1

pandas ×1

random ×1

拆分数据集中的Python随机状态

PYTHON 决策树可视化

如何在 Pandas Dataframe 中查找特定值

PYTHON 中的 tanh 估计器归一化

__init __（）得到了意外的关键字参数'n_splits'错误

标签 统计

小编She_ly 的帖子

init （）得到了意外的关键字参数'n_splits'错误

标签统计