人员级评估:类似应用级评估,区别是由测试人员代替最终用户,优点是更廉价,缺点是效果与最终用户会有差异,尤其是在某些专业领域,比如医学等方面的机器学习产品;
功能级评估:代理型解释,例如我们用SVM训练模型并预测房屋价格,使用局部代理方法(比如决策树)来解释SVM的预测结果,也就是复杂模型做业务,简单模型解释其结果;
PS:在我们的乘客聚类项目中,一部分解释性工作就类似代理型解释,KMeans做聚类,随机森林、逻辑回归解释结果;
解释方法的性质性质是用于判断解释方法自身好坏的方法,目前一个最大的难点在于大多数性质都没法量化:
表达能力:表达能力越好的解释方法越能解释复杂模型的预测结果,目前来看最好的表达能力是对深度神经网络的解释,这一点也是很多大佬们的研究方向;
半透明度:依赖于被解释算法模型的程度,例如对于本质上可解释的模型的解释方法就是高度透明的,而那些模型无关的算法则半透明度基本为0,高透明度的优点是可以基于模型更多信息来解释,而低透明度优点在于移植性好;
可移植性:与解释方法与被解释模型的依赖程度成反比,因此模型无关的解释方法的可移植性是最好的;
算法复杂度:解释方法自身算法的计算复杂度;
单个解释的性质:准确性、保真度、一致性、稳定性、可理解性、确定性、重要程度、新颖性、代表性;
人性化的解释对外输出结果时,什么叫做好的解释,人文科学研究表示:人类更喜欢较短的解释,将正反两面进行对比,异常情况单独进行说明;
解释具有对比性:人们关心的通常不是某个房屋为什么被预测为100w,而是两个情况类似的房屋,为什么一个比另一个贵10w,因此解释的重点在于说明两个例子的差异,形成对比,这种强烈的对比感是人们容易接受的;
选择性的解释:针对真实情况,只选择其中有代表性的几个原因组成解释,使得解释更简短;
解释是社会性的:针对不同的被解释人群进行区分对待,对于专业人员,可以更多从模型算法出发,对于其他岗位同事可以更多从业务等领域出发;
异常要重点解释:异常虽然在指标上没有突出的体现(过于关注指标的表现会忽略藏在其中的异常例子),但是异常很吸引人们的注意力,因此对于异常例子的重点解释是很重要的;
解释是真实的:对于某些例子的解释应该同样适用于其他例子,至少是类似的例子上;
好的解释与被解释着的先验知识是一致的:人类由于认知偏差会更相信自己知道的,比如我们都认为房子越大价钱越贵,那么如果模型在某一类房屋上给出了面积越大,价钱便宜这样一个解释,这是很难被人们接收的,但是事实上模型为了更好的性能,可能进行了复杂的特征交互、组合得出的结果,结果是对的,但是它的解释却很难被接受;
好的解释是普遍性和很可能的:比如房子越大价钱越贵,这就是一个普遍性很高的解释,也确实很可能;
后续后续会继续出可解释性相关文档,预计包括自身可解释模型(线性回归、逻辑回归、决策树等)、模型无关的解释方法、工作中的真实项目中的解释性工作;