作为一个自我发展练习,我想开发一个简单的分类算法,给定Dilbert卡通片的特定单元格,能够识别出动画片中存在哪些角色(Dilbert,PHB,Ratbert等).
我认为最好的方法是(1)将一些算法应用于图像,将其转换为一组特征,以及(2)使用训练集和许多可能的机器学习算法之一来关联存在/没有特定特征存在于细胞中的某些特征.
所以我的问题是 - (a)这是正确的方法,(b)因为有许多分类算法和ML算法要测试,找到合适的算法的好方法是什么,以及(c)你会开始哪种算法因为我们基本上是在对卡通进行分类练习.
python classification machine-learning computer-vision feature-detection
在Walter E. Brown 的CppCon2014会议演讲中,他表示该标准描述了C++中有15种类型的分类.
"C++类型的15个分区."
" 无效就是其中之一." - Walter E. Brown.
其他14个是什么?
在挖掘标准时,我发现了以下内容:
// 20.11.4.1
primary type categories:
template <class T> struct is_void;
template <class T> struct is_integral;
template <class T> struct is_floating_point;
template <class T> struct is_array;
template <class T> struct is_pointer;
template <class T> struct is_lvalue_reference;
template <class T> struct is_rvalue_reference;
template <class T> struct is_member_object_pointer;
template <class T> struct is_member_function_pointer;
template <class T> struct is_enum;
template <class T> struct is_union; …Run Code Online (Sandbox Code Playgroud) 我有一个场景,我有几千个数据实例.数据本身表示为单个整数值.我希望能够检测出一个实例是一个极端的异常值.
例如,使用以下示例数据:
a = 10
b = 14
c = 25
d = 467
e = 12
Run Code Online (Sandbox Code Playgroud)
d 显然是异常,我想基于此执行特定的操作.
我很想尝试使用我对特定领域的知识来检测异常.例如,找出与有用的平均值的距离,并根据启发式检查该值.但是,我认为如果我研究更一般的,强大的异常检测技术可能会更好,这些技术背后有一些理论.
由于我的数学知识有限,我希望找到一种简单的技术,例如使用标准偏差.希望数据的单一尺寸性质会使这成为一个常见问题,但如果需要更多信息,请发表评论,我会提供更多信息.
编辑:以为我会添加有关数据的更多信息以及我尝试过的内容,以防它使一个答案比另一个更正确.
这些值都是正数且非零.我希望这些值会形成正态分布.这种期望是基于域的直觉而不是通过分析,如果这不是一件坏事,请告诉我.在聚类方面,除非还有标准算法来选择k值,否则我会发现很难将这个值提供给k-Means算法.
我想对异常/异常采取的行动是将它呈现给用户,并建议基本上从数据集中删除数据点(我不会了解他们将如何做到这一点,但它是有道理的对于我的域名),因此它不会被用作另一个函数的输入.
到目前为止,我已经尝试了三西格玛,并且我的有限数据集上的IQR异常值测试.IQR标记的值不够极端,三西格玛指出的实例更符合我对域的直觉.
有关此特定方案的算法,技术或资源链接的信息是有效且受欢迎的答案.
对于简单的一维数据,推荐的异常检测技术是什么?
R中xgboost中Objective和feval的区别是什么?我知道这是非常基本的东西,但我无法准确定义它们/它们的目的.另外,什么是softmax目标,同时进行多类分类?
我想知道如何计算多类多标签分类的精度和召回度量,即分类中有多于两个标签,每个实例可以有多个标签?
classification machine-learning multilabel-classification precision-recall
我工作在一个特定的二元分类问题具有高度不平衡的数据集,我想知道是否有人试图实现特定的技术来处理数据集不平衡(如SMOTE)的分类问题,用放电的MLlib.
我正在使用MLLib的随机森林实现,并且已经尝试了最简单的方法来随机地对较大的类进行采样,但它没有像我预期的那样工作.
如果您对类似问题的体验有任何反馈,我将不胜感激.
谢谢,
classification machine-learning apache-spark apache-spark-mllib
它最近出现在一个大型扑克网站上,一些玩家可能通过利用已发现的安全漏洞看到所有对手的牌.
一个天真的骗子会以极快的速度赢得胜利,而且这些作弊通常很快被捕获,如果不能很快被抓住,他们很容易通过他们的手历史快速扫描来发现.
更难的问题发生在骗子表现出情报,诈唬他们必须被召入的地方时,用最坏的牌召唤河牌,基本前提是他们故意丢失底池以掩盖他们看到其他球员牌的能力,他们以合理的现实率获胜.
鉴于:
我们怎样才能合理准确地对这些作弊者进行分类呢?最初的2 + 2线程呼吁创意,我认为SO社区可能有一些有用的建议.
这也是一个有趣的问题,因为它是最新的,并且如果有人找到创造性的解决方案,它在改善世界方面具有真正的应用,因为真正的玩家很有可能在发现识别的骗子时将资金退还给他们.
poker statistics artificial-intelligence classification anti-cheat
我已经使用 XGB 分类器训练了数据集,但在本地出现此错误。它在 Colab 上有效,而且我的朋友对相同的代码也没有任何问题。我不知道这个错误意味着什么...
Invalid classes inferred from unique values of y. Expected: [0 1 2 3 4 5], got [1 2 3 4 5 6]
这是我的代码,但我想这不是原因。
start_time = time.time()
xgb = XGBClassifier(n_estimators = 400, learning_rate = 0.1, max_depth = 3)
xgb.fit(X_train.values, y_train)
print('Fit time : ', time.time() - start_time)
Run Code Online (Sandbox Code Playgroud) python classification machine-learning xgboost xgbclassifier
在张量流MNIST教程中,该mnist.train.next_batch(100)功能非常方便.我现在正试图自己实现一个简单的分类.我的训练数据是一个numpy数组.我如何为自己的数据实现类似的功能,以便为我提供下一批?
sess = tf.InteractiveSession()
tf.global_variables_initializer().run()
Xtr, Ytr = loadData()
for it in range(1000):
batch_x = Xtr.next_batch(100)
batch_y = Ytr.next_batch(100)
Run Code Online (Sandbox Code Playgroud) classification ×10
python ×4
xgboost ×3
r ×2
anti-cheat ×1
apache-spark ×1
c++ ×1
c++11 ×1
categories ×1
numpy ×1
poker ×1
statistics ×1
tensorflow ×1
types ×1