如何从混淆矩阵计算概率?需要分母,字符矩阵

nec*_*cer 5 nlp machine-learning stanford-nlp opennlp confusion-matrix

本文包含用于嘈杂频道中拼写错误的混淆矩阵。它描述了如何根据条件属性纠正错误。

条件概率计算在第2页的左栏中。在第2页的脚注4(左栏)中,作者说:“字符矩阵很容易复制,因此附录中将其省略。” 我不知道如何复制它们!

如何复制它们?我需要原始语料库吗?或者,作者是说他们可以从论文本身的材料中重新计算出来?

dmh*_*dmh 3

查看论文,您只需使用语料库来计算它们,可以是相同的语料库,也可以是与您的应用程序相关的语料库。

在复制矩阵时,请注意它们隐式定义了两个不同的chars矩阵:向量和 n×n 矩阵。对于每个字符x,向量包含该字符在语料库中出现的chars次数的计数。x对于每个字符序列xy,矩阵chars包含该序列在语料库中出现的次数的计数。

chars[x]x表示向量中的查找;表示在矩阵中chars[x,y]查找序列。xy请注意=的每个值的chars[x]总和。chars[x,y]y

请注意,它们的计数均基于 1988 年美联社新闻专线语料库(可从 LDC 获取)。如果您不能使用他们的确切语料库,我认为使用同一流派的其他文本(即另一个新闻专线语料库)并调整您的计数以使它们适合原始数据并不是不合理的。也就是说,如果一个文本与另一个文本足够相似,给定字符的频率不应有太大差异,因此,如果您有一个包含 2200 万个新闻专线单词的语料库,您可以计算该文本中的字符数,并然后将它们加倍以近似其原始计数。