是否建议在word2vec算法中删除重复单词？

Question

我有一个由 DNA 序列组成的数据，其中单词表示为长度为 6 的 kmers，句子表示为 DNA 序列。每个 DNA 序列有 80 kmers（单词）

我拥有的 kmers 列表约为 130,000 kmers，但删除重复元素后，我将只有 4500 kmers。因此，这个巨大的差距让我对是否删除重复的公里数感到困惑。我的问题是，在这种情况下是否建议删除word2vec算法中重复的kmers？

谢谢。

Answer 1

如果没有示例，就不清楚“删除重复元素”的含义。（这是否意味着，当同一个标记连续出现两次？或者在一个“句子”中出现两次？或者，因为我不熟悉您的数据在这个域中的样子，所以完全是其他东西？）

\n\n

你说词汇表中有 130,000 个标记，但后来又增加了 4,500 个，这也令人困惑。通常，“词汇表”大小是唯一标记的数量。删除重复的标记不可能改变遇到的唯一标记的数量。

\n\n

在自然语言 word2vec 的常用领域中，单词通常不会一个接一个地重复。在某种程度上，他们有时可能会 \xe2\x80\x93 就像说“这里非常非常热”\xe2\x80\x93 这并不是我注意到的足够重要的情况任何人评论说“非常非常”的处理方式与任何其他两个词不同。

\n\n

（如果语料库中有一些人为重复的完整句子，您可能会想尝试丢弃精确重复的句子。Word2vec 受益于各种不同的用法示例。重复同一个句子 10次本质上只是超重了那些训练示例 \xe2\x80\x93 它几乎不如 10 个对比但仍然有效的相同单词用法的示例。）

\n\n

您处于一个非自然语言的不同领域，具有不同的共现频率和不同的最终目标。Word2vec 可能被证明是有用的，但任何一般经验规则或来自其他领域的建议都不太可能有用。您应该以两种方式进行测试，以可靠、可重复的方式评估最终任务的结果，并根据您的发现进行选择。

\n