是否建议在word2vec算法中删除重复单词?

oma*_*mar 0 dna-sequence word2vec

我有一个由 DNA 序列组成的数据,其中单词表示为长度为 6 的 kmers,句子表示为 DNA 序列。每个 DNA 序列有 80 kmers(单词)

我拥有的 kmers 列表约为 130,000 kmers,但删除重复元素后,我将只有 4500 kmers。因此,这个巨大的差距让我对是否删除重复的公里数感到困惑。我的问题是,在这种情况下是否建议删除word2vec算法中重复的kmers?

谢谢。

goj*_*omo 5

如果没有示例,就不清楚“删除重复元素”的含义。(这是否意味着,当同一个标记连续出现两次?或者在一个“句子”中出现两次?或者,因为我不熟悉您的数据在这个域中的样子,所以完全是其他东西?)

\n\n

你说词汇表中有 130,000 个标记,但后来又增加了 4,500 个,这也令人困惑。通常,“词汇表”大小是唯一标记的数量。删除重复的标记不可能改变遇到的唯一标记的数量。

\n\n

在自然语言 word2vec 的常用领域中,单词通常不会一个接一个地重复。在某种程度上,他们有时可能会 \xe2\x80\x93 就像说“这里非常非常热”\xe2\x80\x93 这并不是我注意到的足够重要的情况任何人评论说“非常非常”的处理方式与任何其他两个词不同。

\n\n

(如果语料库中有一些人为重复的完整句子,您可能会想尝试丢弃精确重复的句子。Word2vec 受益于各种不同的用法示例。重复同一个句子 10次本质上只是超重了那些训练示例 \xe2\x80\x93 它几乎不如 10 个对比但仍然有效的相同单词用法的示例。)

\n\n

您处于一个非自然语言的不同领域,具有不同的共现频率和不同的最终目标。Word2vec 可能被证明是有用的,但任何一般经验规则或来自其他领域的建议都不太可能有用。您应该以两种方式进行测试,以可靠、可重复的方式评估最终任务的结果,并根据您的发现进行选择。

\n