我有一个数据库,我根据以下三个字段存储数据:id,text,{labels}.请注意,每个文本都已分配给多个label\tag\class.我想构建一个模型(weka\rapidminer\mahout),它可以推荐\将一堆标签\标签\类分类到给定的文本.
我听说过SVM和朴素贝叶斯分类器,但不确定它们是否支持多标签分类.任何指导我正确方向的东西都非常受欢迎!
如何获取第二列等于4或6的行?
a = np.array(np.mat('1 2; 3 4; 5 6; 7 4'))
b = [4,6]
Run Code Online (Sandbox Code Playgroud)
显然,这不起作用:
c = a[a[:,1] in b]
Run Code Online (Sandbox Code Playgroud) 我有一个有两列的表:
aaa bbb
a1 b2
a1 b6
a1 b2
a1 b2
a1 b5
a1 b6
a2 b2
a2 b2
a2 b2
a2 b6
a2 b6
a2 b5
Run Code Online (Sandbox Code Playgroud)
这些列都不应被视为已排序.我想要做的是找到最优雅的方式来计算aaa,bbb给出aaa的多少组合,然后采用最流行的组合(100说)并减去所有剩余组合(10说)的总和,这是预计会比受欢迎的人少.输出应该是元素aaa以及这两个数字之间的差异.例如,上面的输出应该如下:
var cnt
a1 0
a2 0
Run Code Online (Sandbox Code Playgroud)
有任何想法吗?
给出清单:
li = ['a', 'b', 'new', 'mpilgrim', 'z', 'example', 'new', 'two', 'elements']
Run Code Online (Sandbox Code Playgroud)
如何找到包含字符串的(第一个)索引amp?注意amp包含单词example.
仅供参考,这有效: li.index("example")
但这不是: li.index("amp")
我如何在3个维度中绘制以下数据?(显然,还有更多!)
data = [[10, 10, 0.84496124031007758],
[10, 20, 0.87209302325581395],
[10, 30, 0.88139534883720927],
[20, 10, 0.86201550387596892],
[20, 20, 0.87441860465116272],
[20, 30, 0.88992248062015500],
[30, 10, 0.87984496124031009],
[30, 20, 0.89922480620155043],
[30, 30, 0.92015503875968996]]
Run Code Online (Sandbox Code Playgroud)