在文本中查找相关单词的算法

Question

我想说一句话(例如"Apple")并处理一个文本(或者更多).我想提出相关的术语.例如:处理Apple的文档并发现iPod,iPhone,Mac是与"Apple"相关的条款.

关于如何解决这个问题的任何想法？

Answer 1

作为一个起点:您的问题与文本挖掘有关.

有两种方法:统计方法,一种形式自然语言处理(nlp).

我对nlp了解不多,但可以说一下统计方法:

您需要一些文档的向量空间表示,请参阅 http://en.wikipedia.org/wiki/Vector_space_model http://en.wikipedia.org/wiki/Document-term_matrix http://en.wikipedia.org/wiki/TF%E2%80%93idf
为了学习语义,即:不同的单词意思相同,或者一个单词可以有不同的含义,你需要一个大的文本语料库来学习.正如我所说,这是一种统计方法,因此您需要大量样本. http://www.daviddlewis.com/resources/testcollections/

也许你将从你将要使用的上下文中获得大量文档.那是最好的情况.
您必须从此语料库中检索潜在因素.最常见的是:
- LSA(http://en.wikipedia.org/wiki/Latent_semantic_analysis)
- PLSA(http://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis)
- 非负矩阵分解(http://en.wikipedia.org/wiki/Non-negative_matrix_factorization)
- 潜在的dirichlet分配(http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation)
这些方法涉及大量数学.要么你挖,要么你必须找到好的图书馆.

我可以推荐以下书籍: