标签: classification

文本分类到类别

我正在研究文本分类问题,我正在尝试将一组单词分类为类别,是的,有很多库可用于分类,所以如果您建议使用它们,请不要回答.

让我解释一下我想要实施的内容.(以身份为例)

单词列表:

  1. java的
  2. 程序设计
  3. 语言
  4. C-尖锐

类别清单.

  1. java的
  2. C-尖锐

在这里我们将训练该组,如:

  1. java映射到类别1. java
  2. 编程映射到类1.java
  3. 编程映射到类别2.c-sharp
  4. 语言映射到类1.java
  5. 语言映射到类别2.c-sharp
  6. c-sharp映射到类别2.c-sharp

现在我们有一个短语" 最好的java编程书 "来自给定的短语,下面的单词与我们的"单词列表"匹配.:

  1. java的
  2. 程序设计

"编程"有两个映射类别"java"和"c-sharp",因此它是一个常用词.

"java"仅映射到"java"类别.

所以这个短语的匹配类别是"java"

这就是我想到的,这个解决方案很好,可以实现,你的建议是什么,我错过的任何东西,缺陷等等.

classification machine-learning bayesian

6
推荐指数
1
解决办法
5300
查看次数

如何处理C4.5(J48)决策树中缺失的属性值?

使用Weka的C4.5(J48)决策树处理缺失特征属性值的最佳方法是什么?在训练和分类期间都会出现缺失值的问题.

  1. 如果训练实例中缺少值,我是否正确假设我放置了一个'?' 功能的价值?

  2. 假设我能够成功构建决策树,然后从Weka的树结构中用C++或Java创建自己的树代码.在分类时,如果我尝试对新实例进行分类,我会为具有缺失值的功能赋予什么价值?如何将树下降到我具有未知值的决策节点?

使用Naive Bayes会更好地处理缺失值吗?我只想为他们分配一个非常小的非零概率,对吗?

classification machine-learning data-mining decision-tree weka

6
推荐指数
1
解决办法
7462
查看次数

在scikit-learn中实现K Neighbors Classifier,每个对象有3个特征

我想用scikit-learn模块实现一个KNeighborsClassifier(http://scikit-learn.org/dev/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)

我从我的图像中检索坚固性,伸长率和Humoments功能.我如何准备这些数据进行培训和验证?我必须为从我的图像中检索到的每个对象创建一个包含3个特征[Hm,e,s]的列表(从1个图像中有更多对象)?

我读了这个例子(http://scikit-learn.org/dev/modules/generated/sklearn.neighbors.KNeighborsClassifier.html):

X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import KNeighborsClassifier
neigh = KNeighborsClassifier(n_neighbors=3)
neigh.fit(X, y) 

print(neigh.predict([[1.1]]))
print(neigh.predict_proba([[0.9]]))
Run Code Online (Sandbox Code Playgroud)

X和y是2个特征?

samples = [[0., 0., 0.], [0., .5, 0.], [1., 1., .5]]
from sklearn.neighbors import NearestNeighbors
neigh = NearestNeighbors(n_neighbors=1)
neigh.fit(samples) 

print(neigh.kneighbors([1., 1., 1.])) 
Run Code Online (Sandbox Code Playgroud)

为什么在第一个例子中使用X和y并现在采样?

python classification machine-learning nearest-neighbor scikit-learn

6
推荐指数
1
解决办法
1万
查看次数

Weka分类器的参数

我用Weka.我想访问分类器的参数(权重).我想要做的是访问参数的值,以确定它们如何影响属性.

所以,我的问题是:

  • 如何访问分类器的参数?(使用Eclipse)
  • 如何确定参数的相关属性?

java eclipse classification weka

6
推荐指数
1
解决办法
2798
查看次数

计算稀疏矩阵的相似性

我正在使用Python与numpy,scipy和scikit-learn模块.

我想用非常大的稀疏矩阵对数组进行分类.(100,000*100,000)

矩阵中的值等于0或1.我唯一拥有的是value = 1的索引.

a = [1,3,5,7,9] 
b = [2,4,6,8,10]
Run Code Online (Sandbox Code Playgroud)

意思是

a = [0,1,0,1,0,1,0,1,0,1,0]
b = [0,0,1,0,1,0,1,0,1,0,1]
Run Code Online (Sandbox Code Playgroud)

如何在scipy中将索引数组更改为稀疏数组?

如何快速对这些阵列进行分类?

非常感谢你.

python numpy classification scipy sparse-matrix

6
推荐指数
1
解决办法
844
查看次数

如何检测照片是否为海报(不现实)?

我有很多来自音乐家网站的.jpeg.这些图像由即将上映的海报和乐队照片(现实生活中的乐队照片)组成.

这是一个示例海报:

在此输入图像描述

我不熟悉任何现代技术或算法(如果它们存在?),但这是我认为我可能会寻找的:

  • 图像中的文字通常是海报的死亡赠品.
  • 也许真实的照片(即非海报)遵循不同的颜色分布?
  • 海报可能不太可能有面孔 - 但这是一个相当弱的断言.

是否有任何分类算法可以检测图像是否是海报?

artificial-intelligence classification machine-learning image-processing

6
推荐指数
1
解决办法
204
查看次数

如何使用Apache Mahout对图像进行分类?

如何从mahout执行图像分类?如何将图像转换为mahout分类算法接受的形式?是否有任何入门代码?请分享一些入门教程.mahout是图像分类的好库吗?

classification machine-learning image-processing mahout

6
推荐指数
1
解决办法
818
查看次数

Scikit分类报告 - 更改显示结果的格式

Scikit分类报告仅显示两位数的精确度和召回分数.是否有可能使它在点后显示4位数,我的意思是代替0.67显示0.6783?

 from sklearn.metrics import classification_report
 print classification_report(testLabels, p, labels=list(set(testLabels)), target_names=['POSITIVE', 'NEGATIVE', 'NEUTRAL'])
                     precision    recall  f1-score   support

         POSITIVE       1.00      0.82      0.90     41887
         NEGATIVE       0.65      0.86      0.74     19989
         NEUTRAL        0.62      0.67      0.64     10578
Run Code Online (Sandbox Code Playgroud)

另外,我应该担心精度得分为1.00吗?谢谢!

python classification machine-learning svm scikit-learn

6
推荐指数
2
解决办法
4997
查看次数

卷积神经网络是否受到消失梯度的影响?

我想我读到的地方卷积神经网络不会像消失的梯度问题那样受到层数增加的标准sigmoid神经​​网络的影响.但我一直无法找到'为什么'.

它真的没有受到问题的困扰,或者我是错的,这取决于激活功能?[我一直在使用整流线性单元,所以我从未测试过卷积神经网络的Sigmoid单位]

classification machine-learning neural-network conv-neural-network

6
推荐指数
1
解决办法
2637
查看次数

获得较低的ROC AUC分数,但准确度较高

航班延误数据集的版本中使用LogisticRegression类.scikit-learn

pandas用来选择一些列:

df = df[["MONTH", "DAY_OF_MONTH", "DAY_OF_WEEK", "ORIGIN", "DEST", "CRS_DEP_TIME", "ARR_DEL15"]]
Run Code Online (Sandbox Code Playgroud)

NaN用0 填写值:

df = df.fillna({'ARR_DEL15': 0})
Run Code Online (Sandbox Code Playgroud)

确保分类列标有"类别"数据类型:

df["ORIGIN"] = df["ORIGIN"].astype('category')
df["DEST"] = df["DEST"].astype('category')
Run Code Online (Sandbox Code Playgroud)

然后调用get_dummies()来自pandas:

df = pd.get_dummies(df)
Run Code Online (Sandbox Code Playgroud)

现在我训练和测试我的数据集:

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()

test_set, train_set = train_test_split(df, test_size=0.2, random_state=42)

train_set_x = train_set.drop('ARR_DEL15', axis=1)
train_set_y = train_set["ARR_DEL15"]

test_set_x = test_set.drop('ARR_DEL15', axis=1)
test_set_y = test_set["ARR_DEL15"]

lr.fit(train_set_x, train_set_y)
Run Code Online (Sandbox Code Playgroud)

一旦我调用该score方法,我就会得到0.867.但是,当我调用该roc_auc_score方法时,我得到的数字大约低于0.583

 probabilities = lr.predict_proba(test_set_x)

 roc_auc_score(test_set_y, …
Run Code Online (Sandbox Code Playgroud)

classification machine-learning scikit-learn logistic-regression auc

6
推荐指数
2
解决办法
7681
查看次数