对于语言学课程,我们使用隐马尔可夫模型实现了词性(POS)标记,其中隐藏变量是词性.我们在一些标记数据上训练系统,然后对其进行测试并将我们的结果与黄金数据进行比较.
是否有可能在没有标记训练集的情况下训练HMM?
nlp artificial-intelligence machine-learning linguistics markov-models
我使用Baum-Welch算法构造了两个隐马尔可夫模型,以处理越来越多的状态。我注意到在8个州之后,验证得分下降了8个以上州。所以我想知道,由于某种过度拟合,隐马尔可夫模型的准确性是否可能随着状态数量的增加而降低?
提前致谢!
machine-learning markov markov-models hidden-markov-models unsupervised-learning
我读了一些关于ANN和马尔可夫过程的文章.有人可以帮助我理解Markov过程在ANN和遗传算法中的确切位置.或者简单地说,马可夫过程在这种情况下可能起什么作用.
非常感谢
我很难确定马尔可夫模型的平稳分布。我开始理解理论和联系:给定一个随机矩阵,要确定平稳分布,我们需要找到最大特征值(即 1)的特征向量
我从生成一个随机矩阵开始
set.seed(6534)
stoma <- matrix(abs(rnorm(25)), nrow=5, ncol=5)
stoma <- (stoma)/rowSums(stoma) # that should make it a stochastic matrix rowSums(stoma) == 1
Run Code Online (Sandbox Code Playgroud)
之后我使用Reigen函数
ew <- eigen(stoma)
Run Code Online (Sandbox Code Playgroud)
但我不明白结果
> ew
$values
[1] 1.000000e+00+0.000000e+00i -6.038961e-02+0.000000e+00i -3.991160e-17+0.000000e+00i
[4] -1.900754e-17+1.345763e-17i -1.900754e-17-1.345763e-17i
$vectors
[,1] [,2] [,3] [,4] [,5]
[1,] -0.4472136+0i 0.81018968+0i 0.3647755+0i -0.0112889+0.1658253i -0.0112889-0.1658253i
[2,] -0.4472136+0i 0.45927081+0i -0.7687393+0i 0.5314923-0.1790588i 0.5314923+0.1790588i
[3,] -0.4472136+0i 0.16233945+0i 0.2128250+0i -0.7093859+0.0000000i -0.7093859+0.0000000i
[4,] -0.4472136+0i -0.09217315+0i 0.4214660+0i -0.1305497-0.1261247i -0.1305497+0.1261247i
[5,] -0.4472136+0i -0.31275073+0i -0.2303272+0i 0.3197321+0.1393583i 0.3197321-0.1393583i
Run Code Online (Sandbox Code Playgroud)
最大值 (1) 的向量具有所有相同的分量值“-0.4472136”。即使我改变种子,绘制不同的数字,我也会再次得到相同的值。我想念什么?为什么特征向量的分量都是相等的?为什么它们的总和不等于 1 …
给定一个马尔可夫模型,它有一个名为 的开始状态S和一个名为的退出状态F,这个模型可以表示为一个有向图,有一些约束:
每条边都有一些权重落在 (0,1] 范围内作为转移概率。
从每个节点出来的边的权重总和为 1。

问题是如何对开始状态和退出状态之间的路径进行排序?或者,更准确地说,如何找出概率最高的路径?
一方面,权重是概率,所以路径越长,乘积越小,所以一种启发式策略是选择较短的路径和较大的权重候选者;但是这个问题可以转化为最短路径问题还是使用一些定制的维特比算法或一些DP算法来解决?