基于机器学习的方法进行变量筛选,是指构建一个或者多个机器学习模型,来判断每个变量的重要程度,得到最重要的变量。与基于统计的方法相比,基于机器学习的方法同时考虑了所有变量,而不是对单个变量进行独立度量。
3.1 单一算法基于单一算法的方法,是指构建一个有监督的机器学习模型,这个模型不需要用于最终的模型构建,模型自动为每个变量提供某种重要性度量,进而通过这个度量进行重要性排序,比如使用决策树、随机森林等,算法内部包含有变量重要性度量指标。
3.2 迭代基于迭代的方法,其实就是基于多个模型甚至是一系列模型来进行判断。它主要有两种思路:前向筛选和后向筛选,即开始时没有变量,然后逐个添加变量,直到满足某个终止条件;或者从所有变量开始,然后逐个删除变量,直到满足某个终止条件。相比基于单一算法的方法,基于迭代的变量筛选的结果更好。
由于涉及到具体的实现环境,这一部分将在下一篇《数据准备<5>:变量筛选-实战篇》介绍,基于sklearn环境下的实现。
[1] 数据挖掘概念与技术
[2] Python机器学习基础教程
[3] Python数据分析与数据化运营