K-最近邻居的"概率",如分类

WoA*_*WoA 4 statistics classification cluster-analysis machine-learning

我在2D空间中有一小组数据点(大约10个),每个数据点都有一个类别标签.我希望根据现有数据点标签对新数据点进行分类,并将属于任何特定标签类的"概率"关联起来.

是否适合根据标签将新点标记到最近的邻居(如K-最近邻居,K = 1)?为了获得我希望置换所有标签的概率并计算未知点和其余部分的所有最小距离,并找出最小距离小于或等于用于标记它的距离的情况的分数.

谢谢

bay*_*yer 5

Roweis在他的出版物邻域成分分析中使用了KNN的概率框架.这个想法是使用"软"最近邻分类,其中点i使用另一个点j作为其邻居的概率由下式定义:

在此输入图像描述,

其中d_ij是点i和j之间的欧氏距离.

  • 请注意 - 在两个指数中它应该是-d_ij(负距离),以便概率与距离成反比! (7认同)

小智 5

最近邻方法已经使用贝叶斯定理,使用包含您选择的K点的球中的点来估计概率。不需要进行变换,因为属于每个标签的K个点的球中的点数除以该球中的总点数已经是该标签的后验概率的近似值。换一种说法:

P(标签| z)= P(z |标签)P(标签)/ P(z)= K(标签)/ K

这是使用贝叶斯概率规则对使用数据子集估算的估算概率得出的。特别是使用:

VP(x)= K / N(这使您有一个体积为V的球中某点的概率)

P(x)= K / NV(从上方)

P(x =标签)= K(标签)/ N(标签)V(其中K(标签)和N(标签)是该给定类别的球中的点数和总样本数中的点数该课)

P(标签)= N(标签)/ N。

因此,只需选择一个K,计算距离,对点进行计数,然后检查其标签并重新计数,您就有了几率。


Dr.*_*ius 0

答案是:这要看情况。

想象一下,您的标签是一个人的姓氏,X、Y 坐标代表该人 DNA 序列的一些基本特征。显然,更接近的 DNA 描述会增加具有相同姓氏的可能性。

现在假设 X,Y 是该人工作办公室的纬度/经度。更密切的工作与标签(姓氏)共享无关。

因此,这取决于标签和轴的语义。

哈!