我无法理解 keras 中的 skipgrams() 函数

Question

我无法理解 keras 中的 skipgrams() 函数

Rav*_*euk 5 python text-processing nlp machine-learning keras

我试图skipgrams()通过使用以下代码来了解keras 中的功能

from keras.preprocessing.text import *
from keras.preprocessing.sequence import skipgrams

text = "I love money" #My test sentence
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
word2id = tokenizer.word_index
wids = [word2id[w] for w in text_to_word_sequence(text)]
pairs, labels = skipgrams(wids, len(word2id),window_size=1)

for i in range(len(pairs)): #Visualizing the result
    print("({:s} , {:s} ) -> {:d}".format(
          id2word[pairs[i][0]], 
          id2word[pairs[i][1]], 
          labels[i]))

Run Code Online (Sandbox Code Playgroud)

对于句子“我爱钱”，我希望以下(context, word)对的窗口大小为 1，如 keras 中所定义：

([i, money], love)
([love], i)
([love], money)

Run Code Online (Sandbox Code Playgroud)

根据我在 Keras 文档中的理解，它将输出 1 if(word, word in the same window)的标签和 0 if 的标签(word, random word from the vocabulary)。

由于我使用的窗口大小为 1，因此我希望以下对的标签为 1：

(love, i)
(love, money)
(i, love)
(money, love)

Run Code Online (Sandbox Code Playgroud)

以及以下对的 0 标签

(i, money)
(money, i)

Run Code Online (Sandbox Code Playgroud)

然而，代码给了我这样的结果

(love , i ) -> 1
(love , money ) -> 1
(i , love ) -> 1
(money , love ) -> 1    
(i , i ) -> 0
(love , love ) -> 0
(love , i ) -> 0
(money , love ) -> 0

Run Code Online (Sandbox Code Playgroud)

如何将(love , i )和(money , love )标记为 0 和 1？还有(i, money)和(money, i)结果在哪里？

我是否错误地理解了 0 的标签都超出了我的预期？但似乎我很了解 1 的标签。

Answer 1

Max*_*xim 4

那是因为你的词汇量很小：都是一样的("love", "i", "money")单词。这就是为什么“词汇表中的随机单词”总是来自同一个句子，而且来自相同的上下文。

作为一个实验，请执行以下操作：

text = "I love money" #My test sentence
text2 = "Lorem ipsum dolor sit amet, consectetur adipiscing elit, " \
        "sed do eiusmod tempor incididunt ut labore et dolore magna aliqua"
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text, text2])
...

Run Code Online (Sandbox Code Playgroud)

基本上，让分词器知道文本中有更多单词。您应该看到负面示例现在主要是从第二句话生成的，例如：

(i , sit ) -> 0
(love , i ) -> 1
(love , money ) -> 1
(love , ut ) -> 0
(love , sit ) -> 0
(money , consectetur ) -> 0
(money , love ) -> 1
(i , love ) -> 1

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，7 月前
查看次数：	1326 次
最近记录：	4 年，8 月前