从单个单词中提取特征

use*_*145 5 nlp machine-learning feature-extraction

通常人们想通过使用词袋方法从文本中获取特征,计算单词并计算不同的度量,例如 tf-idf 值,如下所示: 如何在分类中包含单词作为数字特征

但是我的问题不同,我想从单个单词中提取一个特征向量。例如,我想知道土豆和炸薯条在向量空间中彼此靠近,因为它们都是由土豆制成的。我想知道牛奶和奶油也很接近,热和温暖,石头和硬等等。

这个问题叫什么?只看海量文档就可以了解单词的相似性和特征吗?

我不会用英文实现,所以我不能使用数据库。

xhu*_*dik 5

嗯,文本数据的特征提取(例如 tf-idf)是基于统计的。另一方面,您正在寻找意义(语义)。因此,没有像 tf-idef 这样的方法适合您。

在 NLP 中存在 3 个基本级别:

  1. 形态分析
  2. 句法分析
  3. 语义分析

(更高的数字代表更大的问题:))。形态学以大多数语言而闻名。句法分析是一个更大的问题(它处理什么是动词,某些句子中的名词,......)。语义分析面临的挑战最大,因为它处理的意义很难在机器中表示,有许多例外并且是特定于语言的。

据我了解,您想了解单词之间的一些关系,这可以通过所谓的依赖树库(或仅treebank)来完成:http : //en.wikipedia.org/wiki/Treebank。它是一个数据库/句子图,其中一个词可以被视为一个节点,关系可以被视为弧。捷克语有很好的树库,英语也有一些,但对于许多“较少覆盖”的语言来说,找到一个......