标签: kappa

fleiss kappa 是衡量注释者间一致性的可靠指标吗?下面的结果让我很困惑,使用它时是否涉及任何假设?

我有带有以下描述的注释矩阵:3 个注释者,3 个类别,206 个主题

数据存储在 numpy.ndarray 变量 z 中:

array([[ 0.,  2.,  1.],
   [ 0.,  2.,  1.],
   [ 0.,  2.,  1.],
   [ 0.,  2.,  1.],
   [ 1.,  1.,  1.],
   [ 0.,  2.,  1.],
   [ 0.,  3.,  0.],
   [ 0.,  3.,  0.],
   [ 0.,  3.,  0.],
   [ 0.,  3.,  0.],
   [ 0.,  3.,  0.],
   [ 0.,  3.,  0.],
   [ 0.,  3.,  0.],
   [ 0.,  3.,  0.],
   [ 0.,  3.,  0.],
   [ 0.,  3.,  0.],
   [ 0.,  3.,  0.],
   [ 0.,  3., …
Run Code Online (Sandbox Code Playgroud)

python annotations kappa

10
推荐指数
2
解决办法
8889
查看次数

与 Cohen Kappa 的多标签注释器协议

假设我想要对文档进行注释。每个文档都可以使用多个标签进行注释。在这个例子中,我有 2 个注释器(a 和 b),他们每个都标记了两个文档。

from sklearn.metrics import cohen_kappa_score
annotator_a = [ 
    ["a","b","c"],
    ["d","e"]
]
annotator_b = [
    ["b","c"],
    ["f"]
]
Run Code Online (Sandbox Code Playgroud)

Annotator_a 用标签 a、b 和 c 标记文档 1。Annotator_b 用标签 b 和 c 标记文档 1。

我尝试使用以下方法计算注释者协议:

cohen_kappa_score(annotator_a, annotator_b)
Run Code Online (Sandbox Code Playgroud)

但这会导致错误:

ValueError: You appear to be using a legacy multi-label data representation. Sequence of sequences are no longer supported; use a binary array or sparse matrix instead.
Run Code Online (Sandbox Code Playgroud)

关于如何计算此集合上的注释者协议的任何想法?

python scikit-learn kappa

3
推荐指数
2
解决办法
3005
查看次数

标签 统计

kappa ×2

python ×2

annotations ×1

scikit-learn ×1