小编Ish*_*ain的帖子

Elastic搜索空索引的开销是多少?

我有一个带有单个节点的集群.该机器有8 GB内存,ES过程分配6 GB内存.我在该节点上运行了总共531个分片(522个索引).大多数分片几乎不包含任何数据.

以下是统计数据:

文件总数:265743

删除的文件:27069

总大小:136923957字节(130.5 MB)

Fielddata:250632字节

filter_cache:9984字节

段:(总数:82 memory_in_bytes:3479988)

提交的堆为5.9 GB,使用的是5.6 GB.

如果我在集群中创建了更多的索引,那么节点统计数据会执行GC并最终进入OOM.我知道这种配置有很多故障(只有一个节点,8 GB中有6 GB).

我想知道内存是如何用完的.总文档,过滤缓存,字段数据几乎没有任何结果,我仍然耗尽了所有内存.

java heap garbage-collection heap-memory elasticsearch

6
推荐指数
1
解决办法
514
查看次数

如何计算小数据集的SVM分类的概率(置信度)?

使用案例:

我有一个小数据集,每个类中有大约3-10个样本.我使用sklearn SVC分类那些RBF内核.我需要预测的信心以及预测的类.我使用了SVC的predict_proba方法.我得到了奇怪的结果.我搜索了一下,发现它只适用于较大的数据集.

在堆栈上发现这个问题Scikit-learn predict_proba给出了错误的答案.

该问题的作者通过将数据集相乘来验证这一点,从而复制数据集.

我的问题:

1)如果我将我的数据集乘以100,每个样本100次,它会增加"predict_proba"的"正确性".会有什么副作用?过拟合?

2)还有其他方法可以计算出分类器的置信度吗?就像超飞机的距离一样?

3)对于这个小样本,SVM是推荐的算法还是我应该选择别的?

python artificial-intelligence machine-learning svm scikit-learn

5
推荐指数
1
解决办法
658
查看次数