Skip to Content
Artificial Intelligence

9-Information-Theory

2020-06-09Original-language archivelegacy assets may be incomplete

基本概念

  • 随机变量:SS
  • 信息:消除随机变量不确定性的事物
    • 信息量与传播媒介无关
    • 信息是相对的
    • 信息是客观物理量
  • 噪音(非信息)
  • 数据 = 噪音 + 信息
  • 信源:产生信息的实体
    • 信源符号 sis_i 发生概率 pip_i
  • 自信息:I(si)=logpiI(s_i)=-\log p_i
  • 信息熵:H(S)=i=1npiI(si)H(S)=\sum_{i=1}^np_iI(s_i)
    • 信源发出符号平均信息量,衡量不确定度
    • 编码的最优策略
    • 二为底:bit
    • e 为底:纳特
  • 条件自信息:I(xiyj)=logp(xiyi)I(x_i|y_j)=-\log p(x_i|y_i)
  • 条件熵:H(XY)=E[I(xiyj)]=i=1mj=1np(xi,yj)logp(xiyj)H(X|Y)=E[I(x_i|y_j)]=-\sum_{i=1}^m\sum_{j=1}^np(x_i,y_j)\log p(x_i|y_j)
  • 互信息:I(XY)=H(X)H(XY)=H(Y)H(YX)I(X|Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)
    • 接受到一个变量使另一个变量不确定度减少的量
  • 联合熵:H(X,Y)=i=1mj=1np(xi,yj)logp(xi,yj)H(X,Y)=-\sum_{i=1}^m\sum_{j=1}^np(x_i,y_j)\log p(x_i,y_j)
  • 交叉熵:H(P,Q)=ipilogqiH(P,Q)=-\sum_{i}p_i\log q_i
    • PP 基于 QQ 编码时平均比特数
  • 相对熵(KL 散度,信息增益):DKL(PQ)=ipilnqipiD_{\text{KL}}(P||Q)=-\sum_i p_i\ln\frac{q_i}{p_i}
    • 使用基于 QQ 的分布来编码服从 PP 的分布的样本所需的额外的平均比特数
    • H(p,q)=H(p)+DKL(PQ)H(p,q) = H(p) + D_{\text{KL}}(P||Q)