Daw*_*n17 9 nlp machine-learning tf-idf word2vec word-embedding
在我试图实施的论文中,它说,
在这项工作中,推文使用三种类型的文本表示建模.第一个是由tf-idf(术语频率 - 逆文档频率)加权的词袋模型(第2.1.1节).第二个代表一个句子,通过平均所有单词的嵌入(在句子中),第三个代表一个句子,通过平均所有单词的加权单词嵌入,单词的权重由tf-idf给出(第2.1.2节) ).
我不确定所提到的第三种表示形式,因为使用单词权重的加权单词嵌入由tf-idf给出.我甚至不确定它们是否可以一起使用.
字嵌入的平均(可能加权)是有意义的,尽管取决于主算法和训练数据,该句子表示可能不是最好的.直觉如下:
另见Kenter等人的论文.有一个很好的帖子可以在不同的算法中对这两种方法进行比较,并得出结论:没有一种方法比另一种更好:一些算法支持简单平均,一些算法在TF-IDF加权下表现更好.
| 归档时间: |
|
| 查看次数: |
5912 次 |
| 最近记录: |