Skip to Content
Machine Learning

Linear Model

2019-04-14Original-language archivelegacy assets may be incomplete

多元线性回归

  • f(x)=ωTx+bf(x)=\omega^Tx+b
  • 决策平面:f(x;ω)=0f(x;\omega)=0
    • 有向距离:γ=f(x;ω)ω\gamma=\frac{f(x;\omega)}{\|\omega\|}
  • 最小二乘法
    • ω^=argminω^(yXω^)T(yXω^)=(XTX)1XTy\hat\omega^*=\arg\min_{\hat\omega}(y-X\hat\omega)^T(y-X\hat\omega)=(X^TX)^{-1}X^Ty
  • 广义线性模型:y=g1(wTx+b)y=g^{-1}(w^Tx+b)

对数几率回归

  • 单位跃阶函数(Heaviside function): 理想但不连续

y={0,z<00.5,z=01,z>0y=\begin{cases}0,& z<0\newline 0.5,& z=0\newline 1,&z>0\end{cases}

  • 对数几率函数 (logistic function/Sigmoid function)
    • g=lny1yg=\ln\frac{y}{1-y}
      • 几率:y1y\frac{y}{1-y},反映了 xx 作为正例的相对可能性
    • g1=S(x)=11+exg^{-1}=S(x)=\frac{1}{1+e^{-x}}
      • S(x)=S(x)(1S(x))S(x)'=S(x)(1-S(x))
  • 对数几率回归:用线性模型逼近真实标记的几率
    • lnp1p0=x^β=(x,1)(ω;b)\ln\frac{p_1}{p_0}=\hat x\beta=(x,1)(\omega; b)
      • 二分类:yia+(1yi)b=ayib1yiy_ia+(1-y_i)b=a^{y_i}b^{1-y_i}
    • Maxmimum likelihood method
      • l(β)=i=1mlnp(yixi;βi)=i=1myiln(g(x^iβ)+(1yi)ln(1g(x^iβ)))l(\beta)=\sum_{i=1}^m\ln p(y_i|x_i;\beta_i)=\sum_{i=1}^my_i\ln (g(\hat x_i\beta)+(1-y_i)\ln (1-g(\hat x_i\beta)))
      • l=i=1m(yig(x^iβ))x^iT=XT(Yg(βTX))l'=\sum_{i=1}^m(y_i-g(\hat x_i\beta))\hat x_i^T=X^T(Y-g(\beta^TX))
      • l=i=1mx^ix^iTp1(x^i;β)(1p1(x^i;β))l''=\sum_{i=1}^m\hat x_i\hat x_i^Tp_1(\hat x_i;\beta)(1-p_1(\hat x_i;\beta))
    • 交叉熵作损失函数梯度下降
  • 梯度下降:θt+1=θtαLθ\theta_{t+1}=\theta_{t}-\alpha\frac{\partial L}{\partial \theta}

Softmax 回归

  • p(y=cx)=softmax(ωcTx)=exp(ωcTx)c=1Cexp(ωcTx)=exp(WTx)1CTexp(WTx)p(y=c|x)=\text{softmax}(\omega_c^Tx)=\frac{\exp(\omega_c^Tx)}{\sum_{c'=1}^C\exp(\omega_{c'}^Tx)}=\frac{\exp(W^Tx)}{1_C^T\exp(W^Tx)}

LDA

  • 给定训练集数据,设法将样例投影到一条直线上,使得同类样例投影点尽可能接近,异类投影点尽可能远离
  • 协方差矩阵:Σ=1n1(XμI)(XμI)T\Sigma=\frac{1}{n-1}(X-\mu I)(X-\mu I)^T
    • Σij=σ(xi,xj)\Sigma_{ij}=\sigma(x_i,x_j)
    • 投影后:ωTΣω\omega^T\Sigma\omega
两类 一般
Within-class scatter matrix Sω=Σ0+Σ1S_\omega=\Sigma_0+\Sigma_1 Sw=i=1NΣiS_w=\sum_{i=1}^N\Sigma_i
Between-class scatter maxtrix Sb=(μ0μ1)(μ0μ1)TS_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T Sb=i=1Nmi(μiμ)(μiμ)YS_b=\sum_{i=1}^{N}m_i(\mu_i-\mu)(\mu_i-\mu)^Y
全局散度矩阵 St=Sb+SwS_t=S_b+S_w i=1m(xiμ)(xiμ)T\sum_{i=1}^m(x_i-\mu)(x_i-\mu)^T
优化目标 maxωωTSbωωTSwω\max_\omega\frac{\omega^TS_b\omega}{\omega^TS_w\omega} maxWtr(WTSbW)tr(WTSwW)\max_W\frac{tr(W^TS_bW)}{tr(W^TS_wW)}
闭式解 w=Sw1(μ0μ1)w=S_w^{-1}(\mu_0-\mu_1) Sw1SbS_w^{-1}S_bkk 大广义特征向量