在文本中查找相关单词的算法

And*_*rew 6 artificial-intelligence similarity

我想说一句话(例如"Apple")并处理一个文本(或者更多).我想提出相关的术语.例如:处理Apple的文档并发现iPod,iPhone,Mac是与"Apple"相关的条款.

关于如何解决这个问题的任何想法?

roc*_*ker 10

作为一个起点:您的问题与文本挖掘有关.

有两种方法:统计方法,一种形式自然语言处理(nlp).

我对nlp了解不多,但可以说一下统计方法:

  1. 您需要一些文档的向量空间表示,请参阅 http://en.wikipedia.org/wiki/Vector_space_model http://en.wikipedia.org/wiki/Document-term_matrix http://en.wikipedia.org/wiki/TF%E2%80%93idf

  2. 为了学习语义,即:不同的单词意思相同,或者一个单词可以有不同的含义,你需要一个大的文本语料库来学习.正如我所说,这是一种统计方法,因此您需要大量样本. http://www.daviddlewis.com/resources/testcollections/

    也许你将从你将要使用的上下文中获得大量文档.那是最好的情况.

  3. 您必须从此语料库中检索潜在因素.最常见的是:

    这些方法涉及大量数学.要么你挖,要么你必须找到好的图书馆.

我可以推荐以下书籍: