use*_*600 0 nlp machine-learning
我在网上搜索过提取二元语法和单字语法文本特征,但仍然找不到有用的信息,有人可以告诉我它们之间有什么区别吗?
例如,如果我有一条文字“我有一只可爱的狗”,那么如果我使用二元语法方法进行特征提取和二元语法提取,将会发生什么?
小智 10
我们正在尝试教机器如何进行自然语言处理。我们人类可以轻松理解语言,但是机器无法理解,因此我们试图教给他们特定的语言模式。因为特定的单词具有含义,但是当我们组合单词(即一组单词)时,比理解它的含义更有用。
n-gram基本上是给定窗口内出现的单词的集合,因此当
n = 1这是Unigram
n = 2是二元组
n = 3这是三字组,依此类推
现在,假设机器尝试理解句子“我有一只可爱的狗”的含义,它将把句子分成特定的块。
它将一个单词一个字母一个字母地考虑,因此每个单词都是一个克。
“我”,“有”,“一个”,“可爱”,“狗”
我会一次考虑两个词,所以它将是biagram,所以每个两个相邻的词将成为biagram
“我有”,“有”,“可爱”,“可爱的狗”
因此,就像这台机器会将句子分解成一小组单词以了解其含义
小智 5
示例:考虑句子“我吃了香蕉”。
在 Unigram 中,我们假设每个单词的出现与其前一个单词无关。因此,每个单词在这里都变成了一个 gram(特征)。
对于 unigram,我们将获得 3 个特征 - 'I'、'ate'、'banana',并且这 3 个特征彼此独立。尽管在实际语言中情况并非如此。
在 Bigram 中,我们假设每个单词的每次出现仅取决于其前一个单词。因此,这里将两个单词计为一克(特征)。
对于 bigram,我们将获得 2 个特征——“我吃了”和“吃香蕉”。这是有道理的,因为模型将了解到 'banana' 出现在 'ate' 之后,而不是相反。
同样,我们可以有 trigram.......n-gram。