加权单词嵌入是什么意思?

Daw*_*n17 9 nlp machine-learning tf-idf word2vec word-embedding

在我试图实施的论文中,它说,

在这项工作中,推文使用三种类型的文本表示建模.第一个是由tf-idf(术语频率 - 逆文档频率)加权的词袋模型(第2.1.1节).第二个代表一个句子,通过平均所有单词的嵌入(在句子中),第三个代表一个句子,通过平均所有单词的加权单词嵌入,单词的权重由tf-idf给出(第2.1.2节) ).

我不确定所提到的第三种表示形式,因为使用单词权重的加权单词嵌入由tf-idf给出.我甚至不确定它们是否可以一起使用.

Max*_*xim 9

字嵌入的平均(可能加权)是有意义的,尽管取决于主算法和训练数据,该句子表示可能不是最好的.直觉如下:

  • 你可能想要处理不同长度的句子,因此平均(优于普通和).
  • 句子中的某些单词通常比其他单词更有价值.TF-IDF是单词值的最简单衡量标准.请注意,结果的比例不会改变.

另见Kenter等人的论文.有一个很好的帖子可以在不同的算法中对这两种方法进行比较,并得出结论:没有一种方法比另一种更好:一些算法支持简单平均,一些算法在TF-IDF加权下表现更好.


小智 6

在该文章或该一个,我们使用加权和,IDF加权和零件的词性加权并且同时使用的混合方法。混合方法是最好的方法,它可以帮助我们在英语-西班牙语和阿拉伯-阿拉伯语的SemEval 2017相似性任务中排在首位(实际上,由于某些原因,我们未发送混合方法,因此我们在阿拉伯语方面官方排名第二)。

它很容易实现和使用,您在文章中有公式,但总而言之,句子的向量只是V = sum_i ^ k = 1 Posweight(w_i)* IDFWeight(w_i)* V_i