oma*_*mar 0 dna-sequence word2vec
我有一个由 DNA 序列组成的数据,其中单词表示为长度为 6 的 kmers,句子表示为 DNA 序列。每个 DNA 序列有 80 kmers(单词)
我拥有的 kmers 列表约为 130,000 kmers,但删除重复元素后,我将只有 4500 kmers。因此,这个巨大的差距让我对是否删除重复的公里数感到困惑。我的问题是,在这种情况下是否建议删除word2vec算法中重复的kmers?
谢谢。
如果没有示例,就不清楚“删除重复元素”的含义。(这是否意味着,当同一个标记连续出现两次?或者在一个“句子”中出现两次?或者,因为我不熟悉您的数据在这个域中的样子,所以完全是其他东西?)
\n\n你说词汇表中有 130,000 个标记,但后来又增加了 4,500 个,这也令人困惑。通常,“词汇表”大小是唯一标记的数量。删除重复的标记不可能改变遇到的唯一标记的数量。
\n\n在自然语言 word2vec 的常用领域中,单词通常不会一个接一个地重复。在某种程度上,他们有时可能会 \xe2\x80\x93 就像说“这里非常非常热”\xe2\x80\x93 这并不是我注意到的足够重要的情况任何人评论说“非常非常”的处理方式与任何其他两个词不同。
\n\n(如果语料库中有一些人为重复的完整句子,您可能会想尝试丢弃精确重复的句子。Word2vec 受益于各种不同的用法示例。重复同一个句子 10次本质上只是超重了那些训练示例 \xe2\x80\x93 它几乎不如 10 个对比但仍然有效的相同单词用法的示例。)
\n\n您处于一个非自然语言的不同领域,具有不同的共现频率和不同的最终目标。Word2vec 可能被证明是有用的,但任何一般经验规则或来自其他领域的建议都不太可能有用。您应该以两种方式进行测试,以可靠、可重复的方式评估最终任务的结果,并根据您的发现进行选择。
\n| 归档时间: |
|
| 查看次数: |
1341 次 |
| 最近记录: |