我正在使用python sklearn包中实现的RandomForestClassifier来构建二进制分类模型.以下是交叉验证的结果:
Fold 1 : Train: 164 Test: 40
Train Accuracy: 0.914634146341
Test Accuracy: 0.55
Fold 2 : Train: 163 Test: 41
Train Accuracy: 0.871165644172
Test Accuracy: 0.707317073171
Fold 3 : Train: 163 Test: 41
Train Accuracy: 0.889570552147
Test Accuracy: 0.585365853659
Fold 4 : Train: 163 Test: 41
Train Accuracy: 0.871165644172
Test Accuracy: 0.756097560976
Fold 5 : Train: 163 Test: 41
Train Accuracy: 0.883435582822
Test Accuracy: 0.512195121951
Run Code Online (Sandbox Code Playgroud)
我使用"价格"功能来预测"质量",这是一个序数值.在每个交叉验证中,有163个训练样例和41个测试示例.
显然,过度拟合发生在这里.那么sklearn提供的任何参数都可以用来克服这个问题吗?我在这里找到了一些参数,例如min_samples_split和min_sample_leaf,但我不太明白如何调整它们.
提前致谢!
python machine-learning decision-tree random-forest scikit-learn
我正在我的笔记本电脑上安装Hadoop.SSH工作正常,但我无法启动hadoop.
munichong@GrindPad:~$ ssh localhost
Welcome to Ubuntu 12.10 (GNU/Linux 3.5.0-25-generic x86_64)
* Documentation: https://help.ubuntu.com/
0 packages can be updated.
0 updates are security updates.
Last login: Mon Mar 4 00:01:36 2013 from localhost
munichong@GrindPad:~$ /usr/sbin/start-dfs.sh
chown: changing ownership of `/var/log/hadoop/root': Operation not permitted
starting namenode, logging to /var/log/hadoop/root/hadoop-munichong-namenode-GrindPad.out
/usr/sbin/hadoop-daemon.sh: line 136: /var/run/hadoop/hadoop-munichong-namenode.pid: Permission denied
usr/sbin/hadoop-daemon.sh: line 135: /var/log/hadoop/root/hadoop-munichong-namenode-GrindPad.out: Permission denied
head: cannot open `/var/log/hadoop/root/hadoop-munichong-namenode-GrindPad.out' for reading: No such file or directory
localhost: chown: changing ownership of `/var/log/hadoop/root': Operation not permitted …Run Code Online (Sandbox Code Playgroud) 我想在没有任何API的情况下构建一个简单的搜索引擎索引功能,例如Lucene.在倒排索引中,我只需要记录每个单词的基本信息,例如docID,position和freqence.
现在,我有几个问题:
什么样的数据结构经常用于构建倒排索引?多维列表?
构建索引后,如何将其写入文件?文件中有哪种格式?像一张桌子?就像在纸上画一个索引表一样?
我使用scipy.optimize.fmin_l_bfgs_b来解决高斯混合问题.混合分布的均值通过回归建模,其权重必须使用EM算法进行优化.
sigma_sp_new, func_val, info_dict = fmin_l_bfgs_b(func_to_minimize, self.sigma_vector[si][pj],
args=(self.w_vectors[si][pj], Y, X, E_step_results[si][pj]),
approx_grad=True, bounds=[(1e-8, 0.5)], factr=1e02, pgtol=1e-05, epsilon=1e-08)
Run Code Online (Sandbox Code Playgroud)
但有时我在信息词典中收到警告"ABNORMAL_TERMINATION_IN_LNSRCH":
func_to_minimize value = 1.14462324063e-07
information dictionary: {'task': b'ABNORMAL_TERMINATION_IN_LNSRCH', 'funcalls': 147, 'grad': array([ 1.77635684e-05, 2.87769808e-05, 3.51718654e-05,
6.75015599e-06, -4.97379915e-06, -1.06581410e-06]), 'nit': 0, 'warnflag': 2}
RUNNING THE L-BFGS-B CODE
* * *
Machine precision = 2.220D-16
N = 6 M = 10
This problem is unconstrained.
At X0 0 variables are exactly at the bounds
At iterate 0 f= 1.14462D-07 |proj g|= 3.51719D-05
* * …Run Code Online (Sandbox Code Playgroud) statistics optimization normal-distribution machine-learning gradient-descent
我在笔记本电脑上安装了Hadoop和SSH."ssh localhost"工作正常.格式化HDFS后,我试图启动hadoop.
munichong@GrindPad:~$ sudo /usr/sbin/start-all.sh
starting namenode, logging to /var/log/hadoop/root/hadoop-root-namenode-GrindPad.out
root@localhost's password:
root@localhost's password: localhost: Permission denied, please try again.
localhost: Permission denied (publickey,password).
Run Code Online (Sandbox Code Playgroud)
它需要密码.我的角色是"munichong".但是munichong的密码在这里不起作用.在这里,我的角色已经变为"root".我不知道我在这里是否遗漏了什么.
有没有人可以帮助我?
谢谢!
我正在使用Linux服务器来设置django项目.我收到此错误:"无法创建/var/www/.matplotlib;请考虑将MPLCONFIGDIR设置为matplotlib配置数据的可写目录"
然后我发现$ MPLCONFIGDIR是空的.所以我这样设置:
lab@base:~$ export MPLCONFIGDIR=~/website/graph
lab@base:~$ echo $MPLCONFIGDIR
/home/lab/website/graph
Run Code Online (Sandbox Code Playgroud)
此路径是我想要存储由Matplotlib创建的图像的目录.然后我在python命令行中确保了这个设置:
>>> import matplotlib
>>> import os
>>> os.environ.get('MPLCONFIGDIR')
'/home/lab/website/graph'
Run Code Online (Sandbox Code Playgroud)
但是,在使用mod_wsgi在Apache中部署的django项目中,上述错误仍然存在.我添加了以下几行:
import os
os.environ['MPLCONFIGDIR'] = "/home/lab/website/graph"
print(os.environ.get('MPLCONFIGDIR'))
Run Code Online (Sandbox Code Playgroud)
它打印"无"!
谁能帮我?
谢谢.
我想阅读文件并处理它们.每次迭代都处理一个文档.
哪种代码更好?
1.
BufferedReader br;
for(File f : files)
{
br = new BufferedReader(......);
......
}
Run Code Online (Sandbox Code Playgroud)
2.
for(File f : files)
{
BufferedReader br = new BufferedReader(......);
......
}
Run Code Online (Sandbox Code Playgroud)
我的观点是哪一个在空间和速度方面更有效率?
我正在使用django 1.3.1
我按照在线教程尝试使用"django-admin.py startproject mysite".
但我总是收到这个:
D:\Code\djtest>django-admin.py startproject mysite
Usage: django-admin.py subcommand [options] [args]
Options:
-v VERBOSITY, --verbosity=VERBOSITY
(...)
Run Code Online (Sandbox Code Playgroud)
到底是怎么回事?
我有一个Mongodb系列.简单来说,它有两列:user和url.它有39274590行.该表的关键是{user,url}.
使用Java,我尝试列出不同的URL:
MongoDBManager db = new MongoDBManager( "Website", "UserLog" );
return db.getDistinct("url");
Run Code Online (Sandbox Code Playgroud)
但我收到一个例外:
Exception in thread "main" com.mongodb.CommandResult$CommandFailure: command failed [distinct]:
{ "serverUsed" : "localhost/127.0.0.1:27017" , "errmsg" : "exception: distinct too big, 16mb cap" , "code" : 10044 , "ok" : 0.0}
Run Code Online (Sandbox Code Playgroud)
我怎么解决这个问题?有没有可以避免这个问题的B计划?
谢谢.
我正在使用预先训练的快速文本模型https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md).
我使用Gensim加载fasttext模型.它可以输出任何单词的向量,无论它是被看到还是看不见(词汇外).
from gensim.models.wrappers import FastText
en_model = FastText.load_fasttext_format('../wiki.en/wiki.en')
print(en_model['car'])
print(en_model['carcaryou'])
Run Code Online (Sandbox Code Playgroud)
在张量流中,我知道我可以使用下面的代码来获得所见单词的可训练嵌入:
# Embedding layer
embeddings = tf.get_variable('embedding_matrix', [vocab_size, state_size], Trainable=True)
rnn_inputs = tf.nn.embedding_lookup(embeddings, x)
Run Code Online (Sandbox Code Playgroud)
已知单词的索引很容易获得.然而,对于那些看不见的词,FastText基于子词模式"预测"它们的潜在向量.看不见的单词没有任何索引.
在这种情况下,我应该如何使用tensorflow来处理已知单词和使用fasttext的看不见的单词?
hadoop ×2
java ×2
python ×2
django ×1
embedding ×1
fasttext ×1
indexing ×1
iteration ×1
linux ×1
matplotlib ×1
mongodb ×1
optimization ×1
performance ×1
scikit-learn ×1
ssh ×1
statistics ×1
sudo ×1
tensorflow ×1
ubuntu ×1