N ((1,0)T , I) 与高斯分布相关的含义

And*_*idy 4 statistics

大家好,我正在读一本书“统计学习的元素”,并遇到了下面的段落,我不明白。(解释了如何生成训练数据)

我们从二元高斯分布 N((0,1)T,I) 生成 10 个均值 mk 并将此类标记为蓝色。同样,还有 10 个来自 N((0,1)T,I) 并标记为橙色类。然后,对于每个类别,我们生成 100 个观测值,如下所示:对于每个观测值,我们以 1/10 的概率随机选择一个 mk,然后生成一个 N(mk, I/5),从而导致每个观测值都是高斯簇的混合班级。

如果您能解释上面的段落,特别是 N((0,1)T,I),我将不胜感激

  • 顺便说一句 - (0,1) 的 T 次方用于转置。
  • 这种表示法在数学上是常见的还是与特定的计算机语言相关?

Jul*_*ora 5

段落中的N代表正态分布;更具体地说,在这种情况下它代表多元正态分布。它不特定于任何编程语言。它来自统计学和概率论,但由于这种概率分布的许多吸引人的属性和重要应用,它也广泛用于编程,因此您应该能够以任何语言执行所描述的过程。

(0,1)^T 部分是均值向量。也就是说,我们想到的是一个长度为 2 的随机向量,其中第一个元素平均为 0,第二个元素平均为 1。

“I”代表2x2单位矩阵,其作用是方差-协方差矩阵。也就是说,两个随机向量分量的方差均为 1(即对角项),而非对角点为 0,对应于两个随机变量之间的协方差。