我是python的新手.任何人都可以告诉我为什么我们在分裂列车和测试集中将随机状态设置为零.
X_train, X_test, y_train, y_test = \
train_test_split(X, y, test_size=0.30, random_state=0)
Run Code Online (Sandbox Code Playgroud)
我已经看到过这样的情况,其中随机状态设置为1!
X_train, X_test, y_train, y_test = \
train_test_split(X, y, test_size=0.30, random_state=1)
Run Code Online (Sandbox Code Playgroud)
交叉验证中这种随机状态的后果是什么?
[![在此处输入图像描述][1]][1]我想可视化我已应用于 pdf 或 png 文件中的数据的树决策分类器。我尝试通过以下代码使用 graphviz 进行可视化:
X_train, X_test, y_train, y_test = \
train_test_split(X, y, test_size=0.30, random_state=1)
clf =tree.DecisionTreeClassifier(max_depth=43)
clf = clf.fit(X_train, y_train)
from sklearn.externals.six import StringIO
import pydot
dot_data = StringIO()
tree.export_graphviz(clf, out_file=dot_data)
graph = pydot.graph_from_dot_data(dot_data.getvalue())
graph[0].write_pdf("tree.pdf")
Run Code Online (Sandbox Code Playgroud)
但程序无法完成。一旦我收到内存不足的错误,第二次我收到错误“点停止工作”。由于这个问题,我想通过知道左孩子在哪里,右孩子或左孩子在哪里来了解这棵树?感谢您的任何回应和帮助
我已经将 csv 格式的数据导入到了熊猫中。谁能告诉我如何在我拥有的一列中找到 280 以上的值并将它们放入另一个数据框中。到目前为止,我已经完成了以下代码:
import numpy as np
import pandas as pd
df = pd.read_csv('...csv')
Run Code Online (Sandbox Code Playgroud)
部分数据如附图所示:在此处输入图片描述
有人知道如何在python中实现tanh-estimator吗?我有一个不遵循高斯分布的数字列表。我想使用 tanh-estimator 作为预处理步骤,但我不知道如何在 python 中实现它,因为没有像 MinMaxScaler() 这样的定义函数。
提前致谢
我打算尝试此链接中的代码:
我从指向的行中得到了错误StratifiedKFold(n_splits=60)。谁能告诉我如何解决这个错误?
这是代码:
import numpy as np
from scipy import interp
import matplotlib.pyplot as plt
from itertools import cycle
from sklearn import svm, datasets
from sklearn.metrics import roc_curve, auc
from sklearn.cross_validation import StratifiedKFold
iris = datasets.load_iris()
X = iris.data
y = iris.target
X, y = X[y != 2], y
X, y
cv = StratifiedKFold(n_splits=6)
classifier = svm.SVC(kernel='linear', probability=True,
random_state=random_state)
mean_tpr = 0.0
mean_fpr = np.linspace(0, 1, 100)
Run Code Online (Sandbox Code Playgroud)
这是错误:
TypeError Traceback (most recent call last)
<ipython-input-227-2af2773f4987> in …Run Code Online (Sandbox Code Playgroud)