A brief introduction to weakly supervised learning（简要介绍弱监督学习） (5)

日期：2021-05-21 栏目：程序人生浏览：次

不准确监督关注监督信息不总是真值的情形；换句话说，有些标签信息可能是错误的。其形式化表示与概述结尾部分几乎完全相同，除了训练数据集中的y_i可能是错误的。

一个典型的情况是在标签有噪声的条件下学习【68】。已有很多相关理论研究【69-71】，这些研究大多都假设存在随机类型的噪声，即标签受制于随机噪声。在实际中，一个基本的想法是识别潜在的误分类样本【72】，而后进行修正。例如，数据编辑（data-editing）方法【73】构建了一个相对邻域图，其中的每个节点对应一个训练样本，连接标签不同的两个节点的边称为一个切边（cut edge）。而后衡量切边权重的统计数据，直觉上，示例连接的切边越多则越可疑。可以删除或者重新标注可疑示例，如图6所示。值得指出的是，这种方法通常依赖近邻信息，因此，这类方法在高维特征空间并不十分可靠，因为当数据稀疏的时候，领域识别常常并不可靠。

A brief introduction to weakly supervised learning（简要介绍弱监督学习）

图6: 识别并删除或重新标注可疑点。

一个最近出现的不准确监督的情景发生在众包模式中（crowdsourcing）【74】，即一个将工作外包给个人的流行模式。对机器学习而言，用众包模式为训练数据收集标签是一种经济的方式。具体而言，未标注数据被外包给大量的工人去标注。在著名的众包系统 Amazon Mechanical Turk（ AMT）上用户可以提交一个任务，例如标注图像有树还是没有树，并向标注工人支付少量的报酬。这些工人通常来自大社会，他们每个人都会执行多种多样的任务。他们通常是相互独立的，报酬不高，并根据自己的判断提供标签。在工人之中，一些可能比另一些更可靠；然而用户通常不会事先知道，因为工人的身份是保密的。还有可能存在“垃圾制造者”，他们几乎是随机地提供标签（例如一个机器人冒充人类来获取报酬），或者“反抗者”，他们故意提供错误答案。除此之外，有些任务对于很多工人来说可能太困难了。因此，用从众包返回的不准确的监督信息进行学习，并保持学习到的性能，是有意义的。

很多研究试图从众包标签中推理出真值标签。有集成方法【35】的理论支持的多票数策略在实际中得到了广泛应用，并有不错的性能【75，76】，因此常常作为基线标准。如果工人的质量和任务的难度可以建模，那么我们就可期望实现更好的性能，其典型的方法是在不同的任务中给工人不同的权重。为此，一些方法试图建立概率模型，而后使用EM算法来进行估计【77，78】。最小最大化熵准则也在一些方法中得到使用【35】。垃圾提供者可以在概率模型中被剔除【79】。最近有研究给出了剔除低品质工人的一般理论条件【80】。

对机器学习而言，众包通常用来收集标签，而从这些数据中学习得到的模型的性能要比标签的质量更为重要。有很多关于在weak teachers或众包标签学习的研究【81，82】，这与用噪声标签学习很相近（在本节开头部分有介绍）；其中的区别在于，对于众包系统而言，我们很容易重复提取某个示例的众包标签。因此，在众包学习中考虑节约成本的效果是很重要的，【83】给出了一个最小化的众包标签数量的上界，也就是说有效众包学习的最小化成本。很多研究工作致力于任务分配和预算分配，试图在精度和标注花费之间取得平衡。为此，离线的不能自适应的任务分配机制【84，85】，以及在线的自适应的任务分配机制【86，87】都有理论支撑。值得注意的是，大多数研究都采用了Dawid-Skene模型，它假设不同任务的潜在成本都是相同的，而很少研究更复杂的成本设置。

设计一个有效的众包协议也十分重要。在【89】中，提供了不确定选项，这样工人在不确定的时候不会被强制要求给出标签；这个选项在理论上能够提升标签的可靠性【90】。在【91】中，引入了一个“双倍或没有”的刺激兼容机制，以确保工人在自已确信的基础上进行诚实的回答；假设所有的工人都想最大化他们的期望报酬，该机制可以剔除垃圾提供者。

5 结论

转载注明出处：https://www.heiqu.com/wpgwyz.html

A brief introduction to weakly supervised learning（简要介绍弱监督学习） (5)

相关推荐