潜在语义分析概念

Question

我已经阅读过使用奇异值分解(SVD)在文本语料库中进行潜在语义分析(LSA).我已经明白了如何做到这一点,我也理解了SVD的数学概念.

但我不明白为什么它适用于文本语料库(我相信 - 必须有语言解释).有人能用语言学的观点来解释我吗？

谢谢

Answer 1

没有语言解释,没有涉及语法,没有处理等价类,同义词,同音异义词,词干等.也没有涉及任何语义,它只是单词出现在一起.将"文档"视为购物车:它包含单词(购买)的组合.单词往往与"相关"单词一起出现.

例如:"药物"一词可以与{爱,医生,医学,体育,犯罪}一起出现; 每个都会指向不同的方向.但结合文档中的许多其他单词,您的查询可能会找到来自类似字段的文档.

Answer 2

一起出现的词（即在语料库中的附近或同一文档中）有助于上下文。潜在语义分析基本上根据它们在上下文方面的相似程度将相似的文档分组到一个语料库中。

我认为此页面上的示例和文字文档图将有助于理解。