我有一个带有单个节点的集群.该机器有8 GB内存,ES过程分配6 GB内存.我在该节点上运行了总共531个分片(522个索引).大多数分片几乎不包含任何数据.
以下是统计数据:
文件总数:265743
删除的文件:27069
总大小:136923957字节(130.5 MB)
Fielddata:250632字节
filter_cache:9984字节
段:(总数:82 memory_in_bytes:3479988)
提交的堆为5.9 GB,使用的是5.6 GB.
如果我在集群中创建了更多的索引,那么节点统计数据会执行GC并最终进入OOM.我知道这种配置有很多故障(只有一个节点,8 GB中有6 GB).
我想知道内存是如何用完的.总文档,过滤缓存,字段数据几乎没有任何结果,我仍然耗尽了所有内存.
使用案例:
我有一个小数据集,每个类中有大约3-10个样本.我使用sklearn SVC分类那些RBF内核.我需要预测的信心以及预测的类.我使用了SVC的predict_proba方法.我得到了奇怪的结果.我搜索了一下,发现它只适用于较大的数据集.
在堆栈上发现这个问题Scikit-learn predict_proba给出了错误的答案.
该问题的作者通过将数据集相乘来验证这一点,从而复制数据集.
我的问题:
1)如果我将我的数据集乘以100,每个样本100次,它会增加"predict_proba"的"正确性".会有什么副作用?过拟合?
2)还有其他方法可以计算出分类器的置信度吗?就像超飞机的距离一样?
3)对于这个小样本,SVM是推荐的算法还是我应该选择别的?
python artificial-intelligence machine-learning svm scikit-learn