相关疑难解决方法(0)

有人怀疑在python中为libsvm/scikit-learn库建模一些特性

我已经抓了很多像这样的ebay游戏:

Apple iPhone 5 White 16GB Dual-Core
Run Code Online (Sandbox Code Playgroud)

我用这种方式手动标记了所有这些内容

B M C S NA
Run Code Online (Sandbox Code Playgroud)

其中B =品牌(Apple)M =型号(iPhone 5)C =颜色(白色)S =尺寸(尺寸)NA =未指定(双核)

现在我需要使用python中的libsvm库训练SVM分类器,以了解ebay标题中出现的序列模式.

我需要通过将问题视为分类来为该属性(品牌,模型,颜色,大小)提取新值.通过这种方式,我可以预测新模型.

我想表示这些功能,以将它们用作libsvm库的输入.我在python工作:D.

  1. 当前单词的身份

我想我可以用这种方式解释它

0 --> Brand
1 --> Model
2 --> Color
3 --> Size 
4 --> NA
Run Code Online (Sandbox Code Playgroud)

如果我知道这个单词是Brand,我会将该变量设置为1(true).在训练测试中可以这样做(因为我已经标记了所有单词)但是我怎样才能为测试集做到这一点?我不知道一个词的类别是什么(这就是我学习它的原因:D).

  1. 当前单词的N-gram子串特征(N = 4,5,6)

没有想法,这意味着什么?

  1. 当前单词前2个单词的标识.

我该如何建模此功能?

考虑到我为第一个功能创建的传奇,我有5 ^(5)组合)

00 10 20 30 40
01 11 21 31 41
02 12 22 32 42
03 13 23 33 43
04 14 24 34 44
Run Code Online (Sandbox Code Playgroud)

如何将其转换为libsvm(或scikit-learn)可以理解的格式?

4. Membership to the 4 …
Run Code Online (Sandbox Code Playgroud)

python dictionary libsvm scikit-learn

8
推荐指数
1
解决办法
454
查看次数

标签 统计

dictionary ×1

libsvm ×1

python ×1

scikit-learn ×1