不准确监督关注监督信息不总是真值的情形;换句话说,有些标签信息可能是错误的。其形式化表示与概述结尾部分几乎完全相同,除了训练数据集中的y_i可能是错误的。
一个典型的情况是在标签有噪声的条件下学习【68】。已有很多相关理论研究【69-71】,这些研究大多都假设存在随机类型的噪声,即标签受制于随机噪声。在实际中,一个基本的想法是识别潜在的误分类样本【72】,而后进行修正。例如,数据编辑(data-editing)方法【73】构建了一个相对邻域图,其中的每个节点对应一个训练样本,连接标签不同的两个节点的边称为一个切边(cut edge)。而后衡量切边权重的统计数据,直觉上,示例连接的切边越多则越可疑。可以删除或者重新标注可疑示例,如图6所示。值得指出的是,这种方法通常依赖近邻信息,因此,这类方法在高维特征空间并不十分可靠,因为当数据稀疏的时候,领域识别常常并不可靠。
图6: 识别并删除或重新标注可疑点。
一个最近出现的不准确监督的情景发生在众包模式中(crowdsourcing)【74】,即一个将工作外包给个人的流行模式。对机器学习而言,用众包模式为训练数据收集标签是一种经济的方式。具体而言,未标注数据被外包给大量的工人去标注。在著名的众包系统 Amazon Mechanical Turk( AMT)上用户可以提交一个任务,例如标注图像有树还是没有树,并向标注工人支付少量的报酬。这些工人通常来自大社会,他们每个人都会执行多种多样的任务。他们通常是相互独立的,报酬不高,并根据自己的判断提供标签。在工人之中,一些可能比另一些更可靠;然而用户通常不会事先知道,因为工人的身份是保密的。还有可能存在“垃圾制造者”,他们几乎是随机地提供标签(例如一个机器人冒充人类来获取报酬),或者“反抗者”,他们故意提供错误答案。除此之外,有些任务对于很多工人来说可能太困难了。因此,用从众包返回的不准确的监督信息进行学习,并保持学习到的性能,是有意义的。
很多研究试图从众包标签中推理出真值标签。有集成方法【35】的理论支持的多票数策略在实际中得到了广泛应用,并有不错的性能【75,76】,因此常常作为基线标准。如果工人的质量和任务的难度可以建模,那么我们就可期望实现更好的性能,其典型的方法是在不同的任务中给工人不同的权重。为此,一些方法试图建立概率模型,而后使用EM算法来进行估计【77,78】。最小最大化熵准则也在一些方法中得到使用【35】。垃圾提供者可以在概率模型中被剔除【79】。最近有研究给出了剔除低品质工人的一般理论条件【80】。
对机器学习而言,众包通常用来收集标签,而从这些数据中学习得到的模型的性能要比标签的质量更为重要。有很多关于在weak teachers或众包标签学习的研究【81,82】,这与用噪声标签学习很相近(在本节开头部分有介绍);其中的区别在于,对于众包系统而言,我们很容易重复提取某个示例的众包标签。因此,在众包学习中考虑节约成本的效果是很重要的,【83】给出了一个最小化的众包标签数量的上界,也就是说有效众包学习的最小化成本。很多研究工作致力于任务分配和预算分配,试图在精度和标注花费之间取得平衡。为此,离线的不能自适应的任务分配机制【84,85】,以及在线的自适应的任务分配机制【86,87】都有理论支撑。值得注意的是,大多数研究都采用了Dawid-Skene模型,它假设不同任务的潜在成本都是相同的,而很少研究更复杂的成本设置。
设计一个有效的众包协议也十分重要。在【89】中,提供了不确定选项,这样工人在不确定的时候不会被强制要求给出标签;这个选项在理论上能够提升标签的可靠性【90】。在【91】中,引入了一个“双倍或没有”的刺激兼容机制,以确保工人在自已确信的基础上进行诚实的回答;假设所有的工人都想最大化他们的期望报酬,该机制可以剔除垃圾提供者。
5 结论