为分类问题生成假数据的最佳方法是什么?

ber*_*kay 6 pattern-recognition classification machine-learning biometrics weka

我正在研究一个项目,我有一个用户的击键时间数据的子集.这意味着用户进行了n次尝试,我将在各种分类算法中使用这些记录的尝试时间数据,以供将来用户尝试验证登录过程由用户或其他人完成.(我可以说这是生物识别技术)

我有3次不同的用户登录尝试过程,当然这是无限数据的子集.

直到现在这是一个简单的分类问题,我决定使用WEKA,但据我所知,我必须创建一些假数据来提供分类算法.用户的测量尝试将为1,假数据将为0.

我可以使用一些优化算法吗?或者有没有办法创建这些假数据以获得最小误报?

谢谢

dmc*_*cer 5

你可以通过几种不同的方式来解决这个问题.

收集反面示例 - 一个简单的解决方案是从其他人那里收集可用作反面示例的击键时序数据.如果你想以非常便宜的价格收集大量样本,就像在大约10美元的大约1000个样本中那样,你可以使用像Amazon Mechanical Turk这样的服务.

也就是说,你可以组合一个人类智能任务(HIT),让人们输入随机密码,如序列.要获取时间信息,您需要使用外部问题,因为常规问题的受限HTML不支持JavaScript.

使用生成模型 - 或者,您可以将生成概率模型训练为用户的击键行为.例如,您可以训练高斯混合模型(GMM)到用户在击键之间的延迟.

这样的模型将为您提供由特定用户生成的击键时间信息的概率估计.然后,您只需设置定时信息的可能性阈值,以便对用户进行身份验证.

使用1类SVM - 最后,1类SVM允许您仅使用正例来训练类似分类器的SVM.要在WEKA中学习一类SVM,如果您使用的是v3.6,请使用LibSVM包装器.如果您正在使用最前沿的开发人员版本,那就是weka.classifiers.meta.OneClassClassifier.