特征选择方法
- 冗余特征
- 去除:减轻负担
- 保留:对应中间概念
- 特征选择方法
- 子集搜索
- 前向
- 后向
- 子集评价
- 子集搜索
过滤式选择
先过滤,再训练
Relief
- near-hit: 同类样本中最近
- near-miss: 异类样本中最近
- 相关统计量(属性):
- 若 与其猜中邻近在属性上的距离小于猜错邻近,增大相关统计量
Relief-F
-
- 为所占比例
包裹式选择
先训练,再选择
- LVW(Las Vegas Wrapper)
- 随机抽取特征 后评估
嵌入式选择
- L1 正则化(LASSO,Least Absolute Shrinkage and Selection Operator)
- PGD 近端梯度下降
- 满足 L-Lipschitz 条件
- 二阶泰勒在 展开:
- 最小值取在
- PGD 近端梯度下降
- L2 正则化(岭回归)