标签: scikit-learn

scikit-learn中跨多个列的标签编码

我正在尝试使用scikit-learn LabelEncoder来编码DataFrame字符串标签的大熊猫.由于数据框有很多(50+)列,我想避免LabelEncoder为每列创建一个对象; 我宁愿只有一个大LabelEncoder对象适用于我的所有数据列.

投掷整DataFrame到LabelEncoder创建下面的错误.请记住,我在这里使用虚拟数据; 实际上我正在处理大约50列字符串标记数据,因此需要一个不按名称引用任何列的解决方案.

import pandas
from sklearn import preprocessing 

df = pandas.DataFrame({
    'pets': ['cat', 'dog', 'cat', 'monkey', 'dog', 'dog'], 
    'owner': ['Champ', 'Ron', 'Brick', 'Champ', 'Veronica', 'Ron'], 
    'location': ['San_Diego', 'New_York', 'New_York', 'San_Diego', 'San_Diego', 
                 'New_York']
})

le = preprocessing.LabelEncoder()

le.fit(df)

Run Code Online (Sandbox Code Playgroud)

回溯(最近一次调用最后一次):文件"",第1行,在文件"/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/preprocessing/label.py",第103行,in y y = column_or_1d(Y,警告=真)文件 "/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/utils/validation.py",线306,在column_or_1d提高ValueError异常("坏输入形状{ 0.".format(shape))ValueError:输入形状错误(6,3)

有关如何解决这个问题的任何想法？

python pandas scikit-learn

Bry*_*yan

2018 07-04

192
推荐指数

13
解决办法

14万
查看次数

在scikit-learn中将分类器保存到磁盘

如何将训练有素的Naive Bayes分类器保存到磁盘并使用它来预测数据？

我从scikit-learn网站获得以下示例程序:

from sklearn import datasets
iris = datasets.load_iris()
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)
print "Number of mislabeled points : %d" % (iris.target != y_pred).sum()

Run Code Online (Sandbox Code Playgroud)

python classification machine-learning scikit-learn

gar*_*rak

2016 04-12

178
推荐指数

5
解决办法

10万
查看次数

如何在NumPy中规范化数组？

我想拥有一个NumPy数组的规范.更具体地说,我正在寻找此功能的等效版本

def normalize(v):
    norm = np.linalg.norm(v)
    if norm == 0: 
       return v
    return v / norm

Run Code Online (Sandbox Code Playgroud)

是否有类似的东西skearn还是numpy？

此函数适用于v0向量的情况.

python statistics numpy normalization scikit-learn

Don*_*beo

2019 04-28

169
推荐指数

13
解决办法

46万
查看次数

是否可以使用scikit-learn K-Means Clustering指定您自己的距离函数？

python cluster-analysis machine-learning k-means scikit-learn

bma*_*asc

2015 08-24

160
推荐指数

6
解决办法

6万
查看次数

如何从scikit-learn决策树中提取决策规则？

我可以从决策树中的受过训练的树中提取基础决策规则(或"决策路径")作为文本列表吗？

就像是:

if A>0.4 then if B<0.2 then if C>0.8 then class='X'

谢谢你的帮助.

python machine-learning decision-tree random-forest scikit-learn

Dro*_*man

2018 04-23

140
推荐指数

9
解决办法

8万
查看次数

RuntimeWarning:numpy.dtype大小已更改,可能表示二进制不兼容

我尝试加载已保存的SVM模型时出现此错误.我尝试卸载sklearn,NumPy和SciPy,再次重新安装最新版本(使用pip).我仍然收到此错误.为什么？

In [1]: import sklearn; print sklearn.__version__
0.18.1
In [3]: import numpy; print numpy.__version__
1.11.2
In [5]: import scipy; print scipy.__version__
0.18.1
In [7]: import pandas; print pandas.__version__
0.19.1

In [10]: clf = joblib.load('model/trained_model.pkl')
---------------------------------------------------------------------------
RuntimeWarning                            Traceback (most recent call last)
<ipython-input-10-5e5db1331757> in <module>()
----> 1 clf = joblib.load('sentiment_classification/model/trained_model.pkl')

/usr/local/lib/python2.7/dist-packages/sklearn/externals/joblib/numpy_pickle.pyc in load(filename, mmap_mode)
    573                     return load_compatibility(fobj)
    574
--> 575                 obj = _unpickle(fobj, filename, mmap_mode)
    576
    577     return obj

/usr/local/lib/python2.7/dist-packages/sklearn/externals/joblib/numpy_pickle.pyc in _unpickle(fobj, filename, mmap_mode)
    505     obj = None
    506     try:
--> …

Run Code Online (Sandbox Code Playgroud)

python numpy scikit-learn

Blu*_*482

2018 08-02

137
推荐指数

5
解决办法

8万
查看次数

在scikit-learn LinearRegression中找到p值(显着性)

如何找到每个系数的p值(显着性)？

lm = sklearn.linear_model.LinearRegression()
lm.fit(x,y)

Run Code Online (Sandbox Code Playgroud)

python statistics regression numpy scikit-learn

elp*_*att

lucky-day

130
推荐指数

9
解决办法

14万
查看次数

在python中是否存在用于均方根误差(RMSE)的库函数？

我知道我可以实现这样的均方根误差函数:

def rmse(predictions, targets):
    return np.sqrt(((predictions - targets) ** 2).mean())

Run Code Online (Sandbox Code Playgroud)

如果这个rmse函数在某个库中实现,可能是scipy或scikit-learn,我正在寻找什么？

python scipy scikit-learn

sia*_*mii

2019 02-14

129
推荐指数

8
解决办法

19万
查看次数

为什么一个热门编码可以提高机器学习性能？

我注意到,当在特定数据集(矩阵)上使用One Hot编码并将其用作学习算法的训练数据时,与使用原始矩阵本身作为训练数据相比,它在预测准确性方面提供了明显更好的结果.这种性能提升如何发生？

machine-learning data-mining data-analysis scikit-learn

mah*_*kya

2017 10-20

123
推荐指数

1
解决办法

4万
查看次数

Scikit中的随机状态(伪随机数)学习

我想在scikit中实现一个机器学习算法,但是我不明白这个参数random_state是做什么的？我为什么要用它？

我也无法理解什么是伪随机数.

python scikit-learn

Eli*_*eph

2019 01-24

122
推荐指数

4
解决办法

12万
查看次数

标签统计

scikit-learn ×10

python ×9

machine-learning ×4

numpy ×3

statistics ×2

classification ×1

cluster-analysis ×1

data-analysis ×1

data-mining ×1

decision-tree ×1

k-means ×1

normalization ×1

pandas ×1

random-forest ×1

regression ×1

scipy ×1

标签 统计

标签统计