小编Mun*_*ong的帖子

如何在Python sklearn的随机森林中解决过度拟合问题？

我正在使用python sklearn包中实现的RandomForestClassifier来构建二进制分类模型.以下是交叉验证的结果:

Fold 1 : Train: 164  Test: 40
Train Accuracy: 0.914634146341
Test Accuracy: 0.55

Fold 2 : Train: 163  Test: 41
Train Accuracy: 0.871165644172
Test Accuracy: 0.707317073171

Fold 3 : Train: 163  Test: 41
Train Accuracy: 0.889570552147
Test Accuracy: 0.585365853659

Fold 4 : Train: 163  Test: 41
Train Accuracy: 0.871165644172
Test Accuracy: 0.756097560976

Fold 5 : Train: 163  Test: 41
Train Accuracy: 0.883435582822
Test Accuracy: 0.512195121951

Run Code Online (Sandbox Code Playgroud)

我使用"价格"功能来预测"质量",这是一个序数值.在每个交叉验证中,有163个训练样例和41个测试示例.

显然,过度拟合发生在这里.那么sklearn提供的任何参数都可以用来克服这个问题吗？我在这里找到了一些参数,例如min_samples_split和min_sample_leaf,但我不太明白如何调整它们.

提前致谢!

python machine-learning decision-tree random-forest scikit-learn

Mun*_*ong

2013 12-26

27
推荐指数

1
解决办法

3万
查看次数

Hadoop:start-dfs.sh权限被拒绝

我正在我的笔记本电脑上安装Hadoop.SSH工作正常,但我无法启动hadoop.

munichong@GrindPad:~$ ssh localhost
Welcome to Ubuntu 12.10 (GNU/Linux 3.5.0-25-generic x86_64)

 * Documentation:  https://help.ubuntu.com/

0 packages can be updated.
0 updates are security updates.

Last login: Mon Mar  4 00:01:36 2013 from localhost

munichong@GrindPad:~$ /usr/sbin/start-dfs.sh
chown: changing ownership of `/var/log/hadoop/root': Operation not permitted
starting namenode, logging to /var/log/hadoop/root/hadoop-munichong-namenode-GrindPad.out
/usr/sbin/hadoop-daemon.sh: line 136: /var/run/hadoop/hadoop-munichong-namenode.pid: Permission denied
usr/sbin/hadoop-daemon.sh: line 135: /var/log/hadoop/root/hadoop-munichong-namenode-GrindPad.out: Permission denied
head: cannot open `/var/log/hadoop/root/hadoop-munichong-namenode-GrindPad.out' for reading: No such file or directory
localhost: chown: changing ownership of `/var/log/hadoop/root': Operation not permitted …

Run Code Online (Sandbox Code Playgroud)

hadoop

Mun*_*ong

lucky-day

16
推荐指数

4
解决办法

4万
查看次数

如何构建简单的倒排索引？

我想在没有任何API的情况下构建一个简单的搜索引擎索引功能,例如Lucene.在倒排索引中,我只需要记录每个单词的基本信息,例如docID,position和freqence.

现在,我有几个问题:

什么样的数据结构经常用于构建倒排索引？多维列表？
构建索引后,如何将其写入文件？文件中有哪种格式？像一张桌子？就像在纸上画一个索引表一样？

indexing information-retrieval

Mun*_*ong

2018 05-12

15
推荐指数

1
解决办法

2万
查看次数

scipy.optimize.fmin_l_bfgs_b返回'ABNORMAL_TERMINATION_IN_LNSRCH'

我使用scipy.optimize.fmin_l_bfgs_b来解决高斯混合问题.混合分布的均值通过回归建模,其权重必须使用EM算法进行优化.

sigma_sp_new, func_val, info_dict = fmin_l_bfgs_b(func_to_minimize, self.sigma_vector[si][pj], 
                       args=(self.w_vectors[si][pj], Y, X, E_step_results[si][pj]),
                       approx_grad=True, bounds=[(1e-8, 0.5)], factr=1e02, pgtol=1e-05, epsilon=1e-08)

Run Code Online (Sandbox Code Playgroud)

但有时我在信息词典中收到警告"ABNORMAL_TERMINATION_IN_LNSRCH":

func_to_minimize value = 1.14462324063e-07
information dictionary: {'task': b'ABNORMAL_TERMINATION_IN_LNSRCH', 'funcalls': 147, 'grad': array([  1.77635684e-05,   2.87769808e-05,   3.51718654e-05,
         6.75015599e-06,  -4.97379915e-06,  -1.06581410e-06]), 'nit': 0, 'warnflag': 2}

RUNNING THE L-BFGS-B CODE

           * * *

Machine precision = 2.220D-16
 N =            6     M =           10
 This problem is unconstrained.

At X0         0 variables are exactly at the bounds

At iterate    0    f=  1.14462D-07    |proj g|=  3.51719D-05

           * * …

Run Code Online (Sandbox Code Playgroud)

statistics optimization normal-distribution machine-learning gradient-descent

Mun*_*ong

2016 01-08

15
推荐指数

3
解决办法

1万
查看次数

Hadoop:输入"start-all.sh"后需要root密码

我在笔记本电脑上安装了Hadoop和SSH."ssh localhost"工作正常.格式化HDFS后,我试图启动hadoop.

munichong@GrindPad:~$ sudo /usr/sbin/start-all.sh
starting namenode, logging to /var/log/hadoop/root/hadoop-root-namenode-GrindPad.out
root@localhost's password: 
root@localhost's password: localhost: Permission denied, please try again.

localhost: Permission denied (publickey,password).

Run Code Online (Sandbox Code Playgroud)

它需要密码.我的角色是"munichong".但是munichong的密码在这里不起作用.在这里,我的角色已经变为"root".我不知道我在这里是否遗漏了什么.

有没有人可以帮助我？

谢谢!

linux ssh ubuntu sudo hadoop

Mun*_*ong

2017 12-06

13
推荐指数

3
解决办法

3万
查看次数

设置Matplotlib MPLCONFIGDIR:考虑将MPLCONFIGDIR设置为matplotlib配置数据的可写目录

我正在使用Linux服务器来设置django项目.我收到此错误:"无法创建/var/www/.matplotlib;请考虑将MPLCONFIGDIR设置为matplotlib配置数据的可写目录"

然后我发现$ MPLCONFIGDIR是空的.所以我这样设置:

lab@base:~$ export MPLCONFIGDIR=~/website/graph
lab@base:~$ echo $MPLCONFIGDIR
/home/lab/website/graph

Run Code Online (Sandbox Code Playgroud)

此路径是我想要存储由Matplotlib创建的图像的目录.然后我在python命令行中确保了这个设置:

>>> import matplotlib
>>> import os
>>> os.environ.get('MPLCONFIGDIR')
'/home/lab/website/graph'

Run Code Online (Sandbox Code Playgroud)

但是,在使用mod_wsgi在Apache中部署的django项目中,上述错误仍然存在.我添加了以下几行:

import os
os.environ['MPLCONFIGDIR'] = "/home/lab/website/graph"
print(os.environ.get('MPLCONFIGDIR'))

Run Code Online (Sandbox Code Playgroud)

它打印"无"!

谁能帮我？

谢谢.

matplotlib

Mun*_*ong

lucky-day

9
推荐指数

1
解决办法

5639
查看次数

实例和迭代.哪一个更好？

我想阅读文件并处理它们.每次迭代都处理一个文档.

哪种代码更好？

BufferedReader br;
for(File f : files)
{
    br = new BufferedReader(......);
    ......
}

Run Code Online (Sandbox Code Playgroud)

for(File f : files)
{
    BufferedReader br = new BufferedReader(......);
    ......
}

Run Code Online (Sandbox Code Playgroud)

我的观点是哪一个在空间和速度方面更有效率？

java iteration performance instantiation

Mun*_*ong

2012 11-20

9
推荐指数

3
解决办法

212
查看次数

django-admin.py仅打印帮助

我正在使用django 1.3.1

我按照在线教程尝试使用"django-admin.py startproject mysite".

但我总是收到这个:

D:\Code\djtest>django-admin.py startproject mysite
Usage: django-admin.py subcommand [options] [args]

Options:
  -v VERBOSITY, --verbosity=VERBOSITY
(...)

Run Code Online (Sandbox Code Playgroud)

到底是怎么回事？

python django

Mun*_*ong

lucky-day

7
推荐指数

2
解决办法

1535
查看次数

MongoDB明显太大了16mb的上限

我有一个Mongodb系列.简单来说,它有两列:user和url.它有39274590行.该表的关键是{user,url}.

使用Java,我尝试列出不同的URL:

  MongoDBManager db = new MongoDBManager( "Website", "UserLog" );
  return db.getDistinct("url");

Run Code Online (Sandbox Code Playgroud)

但我收到一个例外:

Exception in thread "main" com.mongodb.CommandResult$CommandFailure: command failed [distinct]: 
{ "serverUsed" : "localhost/127.0.0.1:27017" , "errmsg" : "exception: distinct too big, 16mb cap" , "code" : 10044 , "ok" : 0.0}

Run Code Online (Sandbox Code Playgroud)

我怎么解决这个问题？有没有可以避免这个问题的B计划？

谢谢.

java mongodb

Mun*_*ong

lucky-day

7
推荐指数

1
解决办法

1万
查看次数

使用Tensorflow和预先训练的FastText来嵌入看不见的单词

我正在使用预先训练的快速文本模型https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md).

我使用Gensim加载fasttext模型.它可以输出任何单词的向量,无论它是被看到还是看不见(词汇外).

from gensim.models.wrappers import FastText
en_model = FastText.load_fasttext_format('../wiki.en/wiki.en')
print(en_model['car'])
print(en_model['carcaryou'])

Run Code Online (Sandbox Code Playgroud)

在张量流中,我知道我可以使用下面的代码来获得所见单词的可训练嵌入:

# Embedding layer
embeddings = tf.get_variable('embedding_matrix', [vocab_size, state_size], Trainable=True)
rnn_inputs = tf.nn.embedding_lookup(embeddings, x)

Run Code Online (Sandbox Code Playgroud)

已知单词的索引很容易获得.然而,对于那些看不见的词,FastText基于子词模式"预测"它们的潜在向量.看不见的单词没有任何索引.

在这种情况下,我应该如何使用tensorflow来处理已知单词和使用fasttext的看不见的单词？

embedding tensorflow fasttext

Mun*_*ong

2017 10-31

7
推荐指数

1
解决办法

2293
查看次数