tin*_*ina 11 text classification
我有大约10,000个文本文档.
如何将它们表示为特征向量,以便我可以将它们用于文本分类?
有没有自动执行特征向量表示的工具?
Chr*_*lor 8
最简单的方法是使用词袋模型.您将每个文档表示为无序的单词集合.
你可能想要删除标点符号,你可能想忽略大小写.您可能还想删除常见字词,例如'和','或'和'the'.
要将其调整为特征向量,您可以从样本中选择(比方说)10,000个代表性单词,v[i,j] = 1如果文档i包含单词j,v[i,j] = 0则可以使用二进制向量.
v[i,j] = 1
i
j
v[i,j] = 0
归档时间:
13 年,11 月 前
查看次数:
9695 次
最近记录:
10 年,10 月 前