李航《统计学习方法》笔记(1)

《统计学习方法》第一章统计学习方法概述笔记。

书中着重于离散变量(数据分为连续变量和离散变量表示的类型)、监督学习。

一些基本定义:
Alt text

  • 输入和输出:模型的输入和输出。也看作是定义在输入空间与输出空间上的随机变量$X$和$Y$,所取的值为$x$和$y$。
  • 输入空间和输出空间:输入和输出所有可能取值的集合,记作$mathcal{X}$和$mathcal{Y}$,有$xin mathcal{X} subseteq R^n $。
  • 实例:每个具体的输入,通常由特征向量表示 $x=(x^{(1)},x^{(2)},ldots,x^{(n)})^T$。注意,$x^{(i)}$表示$x$的第$i$个特征,另用$x_i$表示多个输入变量中的第$i$个。
  • 特征空间:所有特征向量存在的空间。特征空间的每一维对应于一个特征。有时不予区分输入空间和特征空间。
  • 样本或样本点:输入与输出对$(x,y)$。
  • 训练集:是给定的、有限的、用于学习的,且假设数据依联合概率分布$P(X,Y)$独立同分布产生。记作$T={(x_1,y_1),(x_2,y_2),ldots,(x_N,y_N)}$。
  • 假设空间:包含所有可能的模型的集合,用$mathcal{F}$表示。即是输入空间$mathcal{X}$到输出空间$mathcal{Y}$的映射的集合,映射(或模型)可以是概率模型(条件概率分布)$P(Y|X)$或非概率模型(决策函数)$Y=f(X)$,对应参数向量决定的分布族$mathcal{F}={P|P_theta (Y|X),theta in R^n}$和函数族$mathcal{F}={f|Y=f_theta (X),theta in R^n}$,其中参数向量$theta$取值于$n$维欧式空间。

统计学习方法:
对训练集,从假设空间中根据某个评价准则算法学习一个最优模型,使它对训练集和测试集在这个评价准则下有最优的预测。

Alt text

评价准则

  • 损失函数:度量模型一次预测的好坏,是预测值和真实值的非负实值函数,记作$L(Y,f(X))$。包括0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。
  • 期望损失(或风险函数、期望风险):度量平均意义下模型预测的好坏,是损失函数的期望。由于$X$和$Y$遵循联合分布$P(X,Y)$,所以期望损失$R(f)=E_P[L(Y,f(X))]=int_{mathcal{X},mathcal{Y}} L(y,f(x)) P(x,y) dxdy$,学习的目标就是选择该值最小的模型,但$P(x,y)$实际难以得到。
  • 经验损失(或经验风险):是模型关于训练集的平均损失$hat{R}(f)=frac{1}{N}sum_{i=1}^N L(y_i,f(x_i))$,根据大数定律,当样本容量$N$趋于无穷时,经验损失趋近于期望损失。但是现实中训练样本数量有限,需要对经验损失进行一定的矫正。
    • 经验风险最小化: $min_{fin mathcal{F}} frac{1}{N}sum_{i=1}^N L(y_i,f(x_i))$,样本容量足够大时采用,如极大似然估计。
    • 结构风险最小化:$min_{fin mathcal{F}} frac{1}{N}sum_{i=1}^N L(y_i,f(x_i))+lambda J(f)$,样本容量很小时,加入代表模型复杂度的惩罚项防止过拟合,如最大后验概率估计。
    • 监督学习问题转换为经验风险或结构风险函数的最优化问题。
  • 泛化误差:所学到的模型的期望风险$R(hat{f})=E_P[L(Y,hat{f}(X))]=int_{mathcal{X},mathcal{Y}} L(y,hat{f}(x)) P(x,y) dxdy$