使用SVM灯进行分类的文件格式

rit*_*esh 7 machine-learning svm svmlight

我正在尝试使用SVM灯构建分类器,该分类器将文档分类为两个类中的一个.我已经训练并测试了分类器,并将模型文件保存到磁盘中.现在我想使用这个模型文件来分类全新的文档.这应该是什么输入文件格式?它可能是纯文本文件(我认为不会起作用)或者可能只是文本文件中存在的功能的简单列表,没有任何类标签和功能权重(在这种情况下,我必须跟踪指数训练期间特征向量中的特征)还是其他格式?

Mar*_*sen 7

培训和测试文件必须具有相同的格式,每个实例都会产生以下形式的行:

<line> .=. <target> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>
Run Code Online (Sandbox Code Playgroud)

例如(从SVM ^ light网站复制面食):

-1 1:0.43 3:0.12 9284:0.2 # abcdef
Run Code Online (Sandbox Code Playgroud)

您可以访问SVM ^ light网站了解更多信息.