几个星期前我问了一个类似于这个的问题,但我没有正确地提出这个问题.所以我在这里重新询问更多细节的问题,我希望得到一个更加面向AI的答案.
我有一个代表大致相同的产品的清单.例如,在下面的列表中,它们都是希捷硬盘.
对于人类而言,硬盘驱动器3和5是相同的.我们可以更进一步,并假设产品1,3,4和5是相同的,并将产品2和6放在其他类别中.
在我之前的问题中,有人建议我使用特征提取.当我们有一个预定义描述的小数据集(所有硬盘驱动器)时,它工作得非常好,但是所有其他类型的描述呢?我不想开始为我的应用程序可能面临的所有描述编写基于正则表达式的特征提取器,它不能扩展.是否有任何机器学习算法可以帮助我实现这一目标?我可以获得的描述范围很广,在第1行,它可能是冰箱,然后在下一行,硬盘驱动器.我应该尝试采用神经网络路径吗?我的投入应该是什么?
感谢您的帮助!
有没有人知道我可以用于商业产品的好的Java机器学习库?
不幸的是,Weka和Rapidminer不允许这样做.我已经找到了Apache Mahout和Java Data Mininng Package.有没有人经历过这些并提供一些决策支持?
该任务需要聚类和分类算法.
我正在尝试编写一个程序,将文本(文章)作为输入并输出该文本的极性,将其置于正面或负面的情绪中.我已经广泛阅读了不同的方法,但我仍然感到困惑.我读过许多技术,如分类器和机器学习.我想指导和明确指示从哪里开始.例如,我有一个需要数据集的分类器,但我如何将文本(文章)转换为分类器的数据集.如果有人能告诉我解决这个问题的逻辑顺序.提前致谢!PS:请提及任何相关算法或开源实现
问候,迈克
nlp artificial-intelligence classification machine-learning data-mining
我在网上使用的数据集很少,并试图可视化树.但是,它根本不让我可视化树选项.任何人都可以通过使用在线提供的数据集指导我如何在weka中获取树形图?
对不起,我是WEKA的新手,只是在学习.
在我的决策树(J48)分类器输出中,存在一个混淆矩阵:
a b <----- classified as
130 8 a = functional
15 150 b = non-functional
Run Code Online (Sandbox Code Playgroud)
Mahout in Action中描述了归一化可以略微提高准确性.任何人都可以解释原因,谢谢!
我有一个csv,struct is
CAT1,CAT2,TITLE,URL,CONTENT,CAT1,CAT2,TITLE,CONTENT都是中文的.
我想要火车LinearSVC或MultinomialNBX(TITLE)和功能(CAT1,CAT2),都会得到这个错误.下面是我的代码:
PS:我通过这个例子scikit-learn text_analytics在下面写代码
import numpy as np
import csv
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
label_list = []
def label_map_target(label):
''' map chinese feature name to integer '''
try:
idx = label_list.index(label)
except ValueError:
idx = len(label_list)
label_list.append(label)
return idx
c1_list = []
c2_list = []
title_list = []
with open(csv_file, 'r') as f:
# row_from_csv is for shorting this example
for row in …Run Code Online (Sandbox Code Playgroud) 在遵循张量流图像分类教程时,首先它会缓存每个图像的瓶颈:
我用tensorflow重写了训练Estimator.这真的简化了所有代码.但是我想在这里缓存瓶颈功能.
这是我的model_fn.我想缓存dense图层的结果,这样我就可以对实际的培训进行更改,而不必每次都计算瓶颈.
我怎么能做到这一点?
def model_fn(features, labels, mode, params):
is_training = mode == tf.estimator.ModeKeys.TRAIN
num_classes = len(params['label_vocab'])
module = hub.Module(params['module_spec'], trainable=is_training and params['train_module'])
bottleneck_tensor = module(features['image'])
with tf.name_scope('final_retrain_ops'):
logits = tf.layers.dense(bottleneck_tensor, units=num_classes, trainable=is_training) # save this?
def train_op_fn(loss):
optimizer = tf.train.AdamOptimizer()
return optimizer.minimize(loss, global_step=tf.train.get_global_step())
head = tf.contrib.estimator.multi_class_head(n_classes=num_classes, label_vocabulary=params['label_vocab'])
return head.create_estimator_spec(
features, mode, logits, labels, train_op_fn=train_op_fn
)
Run Code Online (Sandbox Code Playgroud) 我通过以下命令在我的 Google Colab 文件中导入了 sklearn DecisionBoundaryDisplay。
from sklearn.inspection import DecisionBoundaryDisplay
Run Code Online (Sandbox Code Playgroud)
我收到以下错误。
ImportError:无法从“sklearn.inspection”导入名称“DecisionBoundaryDisplay”
我什至安装了以下软件包并尝试重新启动运行时,但仍然收到错误。
!pip install --upgrade scikit-learn
!pip install scipy
!pip3 install -U scikit-learn scipy matplotlib
Run Code Online (Sandbox Code Playgroud)
如何解决这个问题?
python classification machine-learning matplotlib scikit-learn
我正试图从R中的树状图中提取出一个我cut在某个高度的分类.这cutree在一个hclust对象上很容易做到,但我无法弄清楚如何在一个dendrogram对象上做到这一点.
此外,我不能只使用原始hclust中的集群,因为(令人沮丧地),类cutree的编号与类的编号不同cut.
hc <- hclust(dist(USArrests), "ave")
classification<-cutree(hc,h=70)
dend1 <- as.dendrogram(hc)
dend2 <- cut(dend1, h = 70)
str(dend2$lower[[1]]) #group 1 here is not the same as
classification[classification==1] #group 1 here
Run Code Online (Sandbox Code Playgroud)
有没有办法让分类相互映射,或者从dendrogram对象中提取较低的分支成员资格(可能有一些巧妙的使用dendrapply?),格式更像是cutree给出的?
classification ×10
python ×3
nlp ×2
scikit-learn ×2
weka ×2
algorithm ×1
data-mining ×1
dendextend ×1
dendrogram ×1
java ×1
mahout ×1
matplotlib ×1
r ×1
tensorflow ×1