我正在研究文本分类问题,我正在尝试将一组单词分类为类别,是的,有很多库可用于分类,所以如果您建议使用它们,请不要回答.
让我解释一下我想要实施的内容.(以身份为例)
单词列表:
类别清单.
在这里我们将训练该组,如:
现在我们有一个短语" 最好的java编程书 "来自给定的短语,下面的单词与我们的"单词列表"匹配.:
"编程"有两个映射类别"java"和"c-sharp",因此它是一个常用词.
"java"仅映射到"java"类别.
所以这个短语的匹配类别是"java"
这就是我想到的,这个解决方案很好,可以实现,你的建议是什么,我错过的任何东西,缺陷等等.
使用Weka的C4.5(J48)决策树处理缺失特征属性值的最佳方法是什么?在训练和分类期间都会出现缺失值的问题.
如果训练实例中缺少值,我是否正确假设我放置了一个'?' 功能的价值?
假设我能够成功构建决策树,然后从Weka的树结构中用C++或Java创建自己的树代码.在分类时,如果我尝试对新实例进行分类,我会为具有缺失值的功能赋予什么价值?如何将树下降到我具有未知值的决策节点?
使用Naive Bayes会更好地处理缺失值吗?我只想为他们分配一个非常小的非零概率,对吗?
classification machine-learning data-mining decision-tree weka
我想用scikit-learn模块实现一个KNeighborsClassifier(http://scikit-learn.org/dev/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)
我从我的图像中检索坚固性,伸长率和Humoments功能.我如何准备这些数据进行培训和验证?我必须为从我的图像中检索到的每个对象创建一个包含3个特征[Hm,e,s]的列表(从1个图像中有更多对象)?
我读了这个例子(http://scikit-learn.org/dev/modules/generated/sklearn.neighbors.KNeighborsClassifier.html):
X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import KNeighborsClassifier
neigh = KNeighborsClassifier(n_neighbors=3)
neigh.fit(X, y)
print(neigh.predict([[1.1]]))
print(neigh.predict_proba([[0.9]]))
Run Code Online (Sandbox Code Playgroud)
X和y是2个特征?
samples = [[0., 0., 0.], [0., .5, 0.], [1., 1., .5]]
from sklearn.neighbors import NearestNeighbors
neigh = NearestNeighbors(n_neighbors=1)
neigh.fit(samples)
print(neigh.kneighbors([1., 1., 1.]))
Run Code Online (Sandbox Code Playgroud)
为什么在第一个例子中使用X和y并现在采样?
python classification machine-learning nearest-neighbor scikit-learn
我用Weka.我想访问分类器的参数(权重).我想要做的是访问参数的值,以确定它们如何影响属性.
所以,我的问题是:
我正在使用Python与numpy,scipy和scikit-learn模块.
我想用非常大的稀疏矩阵对数组进行分类.(100,000*100,000)
矩阵中的值等于0或1.我唯一拥有的是value = 1的索引.
a = [1,3,5,7,9]
b = [2,4,6,8,10]
Run Code Online (Sandbox Code Playgroud)
意思是
a = [0,1,0,1,0,1,0,1,0,1,0]
b = [0,0,1,0,1,0,1,0,1,0,1]
Run Code Online (Sandbox Code Playgroud)
如何在scipy中将索引数组更改为稀疏数组?
如何快速对这些阵列进行分类?
非常感谢你.
我有很多来自音乐家网站的.jpeg.这些图像由即将上映的海报和乐队照片(现实生活中的乐队照片)组成.
这是一个示例海报:

我不熟悉任何现代技术或算法(如果它们存在?),但这是我认为我可能会寻找的:
是否有任何分类算法可以检测图像是否是海报?
artificial-intelligence classification machine-learning image-processing
如何从mahout执行图像分类?如何将图像转换为mahout分类算法接受的形式?是否有任何入门代码?请分享一些入门教程.mahout是图像分类的好库吗?
Scikit分类报告仅显示两位数的精确度和召回分数.是否有可能使它在点后显示4位数,我的意思是代替0.67显示0.6783?
from sklearn.metrics import classification_report
print classification_report(testLabels, p, labels=list(set(testLabels)), target_names=['POSITIVE', 'NEGATIVE', 'NEUTRAL'])
precision recall f1-score support
POSITIVE 1.00 0.82 0.90 41887
NEGATIVE 0.65 0.86 0.74 19989
NEUTRAL 0.62 0.67 0.64 10578
Run Code Online (Sandbox Code Playgroud)
另外,我应该担心精度得分为1.00吗?谢谢!
我想我读到的地方卷积神经网络不会像消失的梯度问题那样受到层数增加的标准sigmoid神经网络的影响.但我一直无法找到'为什么'.
它真的没有受到问题的困扰,或者我是错的,这取决于激活功能?[我一直在使用整流线性单元,所以我从未测试过卷积神经网络的Sigmoid单位]
classification machine-learning neural-network conv-neural-network
在航班延误数据集的版本中使用LogisticRegression类.scikit-learn
我pandas用来选择一些列:
df = df[["MONTH", "DAY_OF_MONTH", "DAY_OF_WEEK", "ORIGIN", "DEST", "CRS_DEP_TIME", "ARR_DEL15"]]
Run Code Online (Sandbox Code Playgroud)
我NaN用0 填写值:
df = df.fillna({'ARR_DEL15': 0})
Run Code Online (Sandbox Code Playgroud)
确保分类列标有"类别"数据类型:
df["ORIGIN"] = df["ORIGIN"].astype('category')
df["DEST"] = df["DEST"].astype('category')
Run Code Online (Sandbox Code Playgroud)
然后调用get_dummies()来自pandas:
df = pd.get_dummies(df)
Run Code Online (Sandbox Code Playgroud)
现在我训练和测试我的数据集:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
test_set, train_set = train_test_split(df, test_size=0.2, random_state=42)
train_set_x = train_set.drop('ARR_DEL15', axis=1)
train_set_y = train_set["ARR_DEL15"]
test_set_x = test_set.drop('ARR_DEL15', axis=1)
test_set_y = test_set["ARR_DEL15"]
lr.fit(train_set_x, train_set_y)
Run Code Online (Sandbox Code Playgroud)
一旦我调用该score方法,我就会得到0.867.但是,当我调用该roc_auc_score方法时,我得到的数字大约低于0.583
probabilities = lr.predict_proba(test_set_x)
roc_auc_score(test_set_y, …Run Code Online (Sandbox Code Playgroud) classification machine-learning scikit-learn logistic-regression auc
classification ×10
python ×3
scikit-learn ×3
weka ×2
auc ×1
bayesian ×1
data-mining ×1
eclipse ×1
java ×1
mahout ×1
numpy ×1
scipy ×1
svm ×1