图2: 主动学习、(纯)半监督学习以及直推学习。
2.1 有人为干预
主动学习【2】假设未标注数据的真值标签可以向先知”查询。简单起见,假设标注成本只与查询次数有关。那么主动学习的目标就是最小化查询次数,以使训练一个好模型的成本最小。
给定少量标注数据以及大量未标注数据,主动学习倾向于选择最有价值的未标注数据来查询先知。衡量选择的价值,有两个广泛使用的标准,即信息量(informativeness)和代表性(representativeness)【6】。信息量衡量一个未标注数据能够在多大程度上降低统计模型的不确定性,而代表性衡量一个样本在多大程度上能代表模型的输入分布。
不确定抽样(uncertainty sampling)和投票询问(query-by-committee)是基于信息量的典型方法。前者训练单个学习器,选择学习器最不确信的样本向先知询问标签信息【7】。后者生成多个学习器,选择各个学习器争议最大的样本向先知询问标签信息【8,9】。基于代表性的模型通常的目标是用聚类方法来挖掘未标注数据的集群结构【10,11】。
基于信息量的方法,主要缺点是为了建立选择查询样本所需的初始模型,而严重依赖于标注数据,并且当标注样本较少时,其性能通常不稳定。基于代表性的方法,主要缺点在于其性能严重依赖于由未标注数据控制的的聚类结果,当标注数据较少时尤其如此。因此,几种最近的主动学习方法尝试同时利用信息量和代表性度量【6,12】。
关于主动学习有很多理论性的研究。例如,已经证明对于可实现(realizable)情况(假设数据在假设的空间中完全可分),随着样本复杂性的增加,主动学习的性能可以获得指数提升【13,14】。对于不可实现(non-realizable)的情况(即由于噪声的存在,以致数据在任何假设下都不完全可分),在没有对噪声模型的先验假设时,主动学习的下确界相当于被动学习的上确界,换句话说,主动学习并不是非常有用。当假设噪声为Tsybakov噪声模型时,我们可以证明,在噪声有界的条件下,主动学习的性能可呈指数级提升【16,17】;如果能够挖掘数据的一些特定性质,像多视角结构(multi-view structure),那么即使在不对噪声进行限制的情况下,其性能也能呈指数级提升【18】。换句话说,只要设计得巧妙,主动学习在解决困难问题时仍然有用。
2.2 无人为干预
半监督学习【3-5】是指在不询问人类专家的条件下挖掘未标注数据。为什么未标注数据对于构建预测模型也会有用?做一个简单的解释【19】,假设数据来自一个由n个高斯分布混合的高斯混合模型,也就是说:f(x | \theta) = \sum_{j=1}^n \alpha_j f(x | \theta_j) (1)其中\alpha_j为混合系数,\sum_{j=1}^n \alpha_j = 1 并且 \theta = {\theta_j} 是模型参数。在这种情况下,标签y_i可以看作一个随机变量,其分布 P(y_i | x_i, g_i)由混合成分g_i和特征向量x_i决定。最大化后验概率有:h(x) = argmax_c \sum_{j=1}^n P(y_i = c | g_i = j, x_i) \times P(g_i = j | x_i) (2)。其中:P(g_i = j | x_i) = \frac{\alpha_j f(x_i | \theta_j)} {\sum_{k=1}^n \alpha_k f(x_i | \theta_k)} (3)
h(x)可以通过用训练数据估计 P(y_i = c | g_i = j, x_i) 和 P(g_i = j | x_i) 来求得。很明显只有第一项需要标签信息。因此,未标注数据可以用来估计提升对第二项的估计,从而提升学习模型的性能。
图3: 未标注数据的作用。
图3给出了一个直观的解释。如果我们只能根据唯一的正负样本点来预测,那我们就只能随机猜测,因为测试样本恰好落在了两个标注样本的中间位置;如果我们能够观测到一些未标注数据,例如图中的灰色样本点,我们就能以较高的置信度判定测试样本为正样本。在此处,尽管未标注样本没有明确的标签信息,它们却隐晦地包含了一些数据分布的信息,而这对于预测模型是有用的。