bigram和unigram文本特征提取有什么区别

Question

我在网上搜索过提取二元语法和单字语法文本特征，但仍然找不到有用的信息，有人可以告诉我它们之间有什么区别吗？

例如，如果我有一条文字“我有一只可爱的狗”，那么如果我使用二元语法方法进行特征提取和二元语法提取，将会发生什么？

Answer 1

我们正在尝试教机器如何进行自然语言处理。我们人类可以轻松理解语言，但是机器无法理解，因此我们试图教给他们特定的语言模式。因为特定的单词具有含义，但是当我们组合单词（即一组单词）时，比理解它的含义更有用。

n-gram基本上是给定窗口内出现的单词的集合，因此当

现在，假设机器尝试理解句子“我有一只可爱的狗”的含义，它将把句子分成特定的块。

因此，就像这台机器会将句子分解成一小组单词以了解其含义

Answer 2

示例：考虑句子“我吃了香蕉”。

在 Unigram 中，我们假设每个单词的出现与其前一个单词无关。因此，每个单词在这里都变成了一个 gram（特征）。

对于 unigram，我们将获得 3 个特征 - 'I'、'ate'、'banana'，并且这 3 个特征彼此独立。尽管在实际语言中情况并非如此。

在 Bigram 中，我们假设每个单词的每次出现仅取决于其前一个单词。因此，这里将两个单词计为一克（特征）。

对于 bigram，我们将获得 2 个特征——“我吃了”和“吃香蕉”。这是有道理的，因为模型将了解到 'banana' 出现在 'ate' 之后，而不是相反。

同样，我们可以有 trigram.......n-gram。