小编na9*_*090的帖子

我正在使用支持向量机进行文本分类,但基本上我对测试集的特征向量计算感到困惑.

对于训练特征向量,我为每个训练数据采用TF-IDF向量,并使用TF-IDF值构建特征矩阵[docs x terms].

但是如何计算测试集的特征向量呢？我应该只使用训练集中的TF-IDF值来计算它吗？

例如:在特定单词"apple"的训练集中,doc频率为5.对于测试集,我应该使用值5作为"apple"吗？或者根据测试集重新计算TF-IDF？或者说,我在计算特征向量时走错路吗？

提前致谢!

2
推荐指数

1
解决办法

952
查看次数

小编na9_090的帖子