Mar*_*zhi 8 pattern-recognition classification machine-learning data-mining feature-selection
我在知名人士的老中考试中看到一个例子Tom Mitchell,如下:
考虑在总共1000个特征的情况下学习分类器.其中50个是关于课堂的真实信息.另外50个功能是前50个功能的直接副本.最终的900个功能不提供信息.假设有足够的数据可靠地评估功能的有用性,并且功能选择方法使用了良好的阈值.
How many features will be selected by mutual information ?ltering?
Run Code Online (Sandbox Code Playgroud)
解决方案:100
How many features will be selected by a wrapper method?
Run Code Online (Sandbox Code Playgroud)
解决方案:50
我的挑战是如何实现这些解决方案?我做了很多尝试,但无法理解这背后的想法.
How many features will be selected by mutual information ?ltering?
Run Code Online (Sandbox Code Playgroud)
相互信息特征选择独立评估每个特征的候选资格.由于基本上有100个功能真正提供信息,我们最终将通过互信息过滤100个功能.
How many features will be selected by a wrapper method?
Run Code Online (Sandbox Code Playgroud)
包装器方法评估特征的子集,因此它考虑了特征之间的交互.由于50个特征是其他50个特征的直接副本,因此包装方法能够找出以前50个特征为条件的条件,第二组50个特征根本不添加任何额外信息.过滤后我们最终得到了50个功能.假设第一组50个特征是50个特征A1, A2, ..., A50的副本C1, C2, ..., C50.所选功能的最终结果可能如下所示:
A1, C2, A3, A4, C5, C6, ..., A48, A49, C50.
Run Code Online (Sandbox Code Playgroud)
因此,每个唯一特征应该只有一次出现(来自特征集A的特征集C).
| 归档时间: |
|
| 查看次数: |
499 次 |
| 最近记录: |