如何将文本文档表示为文本分类的特征向量?

tin*_*ina 11 text classification

我有大约10,000个文本文档.

如何将它们表示为特征向量,以便我可以将它们用于文本分类?

有没有自动执行特征向量表示的工具?

Chr*_*lor 8

最简单的方法是使用词袋模型.您将每个文档表示为无序的单词集合.

你可能想要删除标点符号,你可能想忽略大小写.您可能还想删除常见字词,例如'和','或'和'the'.

要将其调整为特征向量,您可以从样本中选择(比方说)10,000个代表性单词,v[i,j] = 1如果文档i包含单词j,v[i,j] = 0则可以使用二进制向量.