标签: classification

算法对产品列表进行分类?拿2

几个星期前我问了一个类似于这个的问题,但我没有正确地提出这个问题.所以我在这里重新询问更多细节的问题,我希望得到一个更加面向AI的答案.

我有一个代表大致相同的产品的清单.例如,在下面的列表中,它们都是希捷硬盘.

  1. 希捷硬盘500Go
  2. 希捷硬盘120Go笔记本电脑
  3. 希捷Barracuda 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0Gb/s硬盘
  4. 希捷新推出的500G硬盘
  5. 希捷Barracuda 7200.12
  6. 希捷FreeAgent Desk 500GB外置硬盘银7200RPM USB2.0零售
  7. GE Spacemaker Laudry
  8. Mazda3 2010
  9. Mazda3 2009 2.3L

对于人类而言,硬盘驱动器3和5是相同的.我们可以更进一步,并假设产品1,3,4和5是相同的,并将产品2和6放在其他类别中.

在我之前的问题中,有人建议我使用特征提取.当我们有一个预定义描述的小数据集(所有硬盘驱动器)时,它工作得非常好,但是所有其他类型的描述呢?我不想开始为我的应用程序可能面临的所有描述编写基于正则表达式的特征提取器,它不能扩展.是否有任何机器学习算法可以帮助我实现这一目标?我可以获得的描述范围很广,在第1行,它可能是冰箱,然后在下一行,硬盘驱动器.我应该尝试采用神经网络路径吗?我的投入应该是什么?

感谢您的帮助!

algorithm classification machine-learning neural-network

14
推荐指数
2
解决办法
2822
查看次数

用于商业用途的Java机器学习库?

有没有人知道我可以用于商业产品的好的Java机器学习库?
不幸的是,Weka和Rapidminer不允许这样做.我已经找到了Apache MahoutJava Data Mininng Package.有没有人经历过这些并提供一些决策支持?
该任务需要聚类和分类算法.

java classification cluster-analysis machine-learning

14
推荐指数
1
解决办法
6929
查看次数

用于情绪分析的NLP和机器学习

我正在尝试编写一个程序,将文本(文章)作为输入并输出该文本的极性,将其置于正面或负面的情绪中.我已经广泛阅读了不同的方法,但我仍然感到困惑.我读过许多技术,如分类器和机器学习.我想指导和明确指示从哪里开始.例如,我有一个需要数据集的分类器,但我如何将文本(文章)转换为分类器的数据集.如果有人能告诉我解决这个问题的逻辑顺序.提前致谢!PS:请提及任何相关算法或开源实现

问候,迈克

nlp artificial-intelligence classification machine-learning data-mining

14
推荐指数
1
解决办法
3969
查看次数

可视化Weka分类树

我在网上使用的数据集很少,并试图可视化树.但是,它根本不让我可视化树选项.任何人都可以通过使用在线提供的数据集指导我如何在weka中获取树形图?

data-visualization classification decision-tree weka

14
推荐指数
2
解决办法
4万
查看次数

如何阅读WEKA中的分类器混淆矩阵

对不起,我是WEKA的新手,只是在学习.

在我的决策树(J48)分类器输出中,存在一个混淆矩阵:

a    b   <----- classified as
130  8     a = functional
15   150   b = non-functional
Run Code Online (Sandbox Code Playgroud)
  • 我该如何阅读这个矩阵?a&b之间有什么区别?
  • 此外,任何人都可以向我解释什么是域名值?

classification decision-tree weka

14
推荐指数
2
解决办法
4万
查看次数

为什么矢量归一化可以提高聚类和分类的准确性?

Mahout in Action中描述了归一化可以略微提高准确性.任何人都可以解释原因,谢谢!

nlp classification machine-learning mahout

14
推荐指数
1
解决办法
1万
查看次数

sklearn分类器得到ValueError:输入形状不好

我有一个csv,struct is CAT1,CAT2,TITLE,URL,CONTENT,CAT1,CAT2,TITLE,CONTENT都是中文的.

我想要火车LinearSVCMultinomialNBX(TITLE)和功能(CAT1,CAT2),都会得到这个错误.下面是我的代码:

PS:我通过这个例子scikit-learn text_analytics在下面写代码

import numpy as np
import csv
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline

label_list = []

def label_map_target(label):
    ''' map chinese feature name to integer  '''
    try:
        idx = label_list.index(label)
    except ValueError:
        idx = len(label_list)
        label_list.append(label)

    return idx


c1_list = []
c2_list = []
title_list = []
with open(csv_file, 'r') as f:
    # row_from_csv is for shorting this example
    for row in …
Run Code Online (Sandbox Code Playgroud)

python classification scikit-learn text-classification

14
推荐指数
2
解决办法
6万
查看次数

Tensorflow Estimator:缓存瓶颈

在遵循张量流图像分类教程时,首先它会缓存每个图像的瓶颈:

def:cache_bottlenecks())

我用tensorflow重写了训练Estimator.这真的简化了所有代码.但是我想在这里缓存瓶颈功能.

这是我的model_fn.我想缓存dense图层的结果,这样我就可以对实际的培训进行更改,而不必每次都计算瓶颈.

我怎么能做到这一点?

def model_fn(features, labels, mode, params):
    is_training = mode == tf.estimator.ModeKeys.TRAIN

    num_classes = len(params['label_vocab'])

    module = hub.Module(params['module_spec'], trainable=is_training and params['train_module'])
    bottleneck_tensor = module(features['image'])

    with tf.name_scope('final_retrain_ops'):
        logits = tf.layers.dense(bottleneck_tensor, units=num_classes, trainable=is_training)  # save this?

    def train_op_fn(loss):
        optimizer = tf.train.AdamOptimizer()
        return optimizer.minimize(loss, global_step=tf.train.get_global_step())

    head = tf.contrib.estimator.multi_class_head(n_classes=num_classes, label_vocabulary=params['label_vocab'])

    return head.create_estimator_spec(
        features, mode, logits, labels, train_op_fn=train_op_fn
    )
Run Code Online (Sandbox Code Playgroud)

python classification machine-learning tensorflow

14
推荐指数
1
解决办法
321
查看次数

ImportError:无法从“sklearn.inspection”导入名称“DecisionBoundaryDisplay”

我通过以下命令在我的 Google Colab 文件中导入了 sklearn DecisionBoundaryDisplay。

from sklearn.inspection import DecisionBoundaryDisplay
Run Code Online (Sandbox Code Playgroud)

我收到以下错误。

ImportError:无法从“sklearn.inspection”导入名称“DecisionBoundaryDisplay”

我什至安装了以下软件包并尝试重新启动运行时,但仍然收到错误。

!pip install --upgrade scikit-learn

!pip install scipy

!pip3 install -U scikit-learn scipy matplotlib
Run Code Online (Sandbox Code Playgroud)

如何解决这个问题?

python classification machine-learning matplotlib scikit-learn

14
推荐指数
2
解决办法
2万
查看次数

从R中的剪切树形图中提取标签成员资格/分类(即:树状图的cutree函数)

我正试图从R中的树状图中提取出一个我cut在某个高度的分类.这cutree在一个hclust对象上很容易做到,但我无法弄清楚如何在一个dendrogram对象上做到这一点.

此外,我不能只使用原始hclust中的集群,因为(令人沮丧地),类cutree的编号与类的编号不同cut.

hc <- hclust(dist(USArrests), "ave")

classification<-cutree(hc,h=70)

dend1 <- as.dendrogram(hc)
dend2 <- cut(dend1, h = 70)


str(dend2$lower[[1]]) #group 1 here is not the same as
classification[classification==1] #group 1 here
Run Code Online (Sandbox Code Playgroud)

有没有办法让分类相互映射,或者从dendrogram对象中提取较低的分支成员资格(可能有一些巧妙的使用dendrapply?),格式更像是cutree给出的?

r classification cluster-analysis dendrogram dendextend

13
推荐指数
2
解决办法
6593
查看次数