[一起面试AI]NO.4特征工程主要包括什么？

日期：2022-07-17 栏目：程序人生浏览：次

Q1 数据预处理主要包括什么

「无量纲化」

无量纲化主要解决数据的「量纲不同」的问题，使不同的数据转换到「同一」规格，常见的方法有「标准化」和「区间缩放法」。标准化的假设前提是特征值服从「正态分布」。区间放缩法利用了「边界值」信息，将特征的取值区间缩放到某个「特点」的范围，列如[0,1]等。

(1) 标准化

理论上，标准化适用于服从正态分布的数据，目前很多工程都依赖大数据，所以在样本「足够多」的情况下，工程师往往直接使用标准化对数据进行无量纲化预处理，在深度学习中，将数据标准化能够保证有更好的「收敛」。如果不进行数据标准化，有些「特征」将会对损失函数影响很大，使得其他值比较小的特征重要性「降低」。

(2)归一化/区间缩放法

归一化适用于数据量较小的工程。顾名思义就是利用两个最值进行缩放。公式为(x-min)/(max-min)

「2.哑编码与独热编码」

如果某一列数据是一些特征，比如国家名称，那就没有办法应用到回归或者分类里，所以需要对数据进行哑编码或者独热编码。

哑编码与独热编码的区别主要是哑编码祛除了一个状态位。

「例如」：假设在中国、德国、法国、美国四种可能的取值，独热编码就是用每个维度表达一个国家，比如中国为1,0,0,0。而哑编码只需要三个状态位，如其他都为0则中国必为1.

「3.缺失值补充」

缺失值最常用的就是「均值、就近补齐、K最近距离填充」等方法。特别需要注意的是，有的时候缺失值也是一种特征。

应当分为三种情况：

当缺失值过多时：应当舍弃这个特征。

当缺失值适中时：应当将填充值当成一种特征

当缺失值较少时：可以考虑进行填充

填充的常用策略：

用一个异常值填充并将缺失值作为一个特征处理

用均值或者条件均值填充，如果数据是不平衡的，那么应该使用条件均值填充，条件均值指的是与缺失值所属标签相同的所有数据的均值。

用相邻数据填充

利用插值算法

数据拟合，将缺失值当成一种预测来处理

Q2 特征选择主要包括什么

特征选择是非常关键的步骤，选入大量的特征不仅会降低模型效果，也会耗费大量的计算时间，而漏选的特征也会直接影响到最终的模型结果。一般情况下主要利用以下办法进行特征选择。

「1.方差选择法」

假如某列特征变化一直很平缓，所以说明这组特征对预测结果影响不大，所以应该计算出各个特征的方差选择方差大于自身阈值的特征。

「2.相关系数，统计检验」

相关系数或者统计检验都可以用来特征选择。

「3.互信息法」

互信息法也经常用来评价自变量对因变量的相关性。

「4.基于机器学习的特征选择法」

主要是针对特征和响应变量建立预测模型，例如用基于树的方法(决策树，随机森林，GDBT)，或者扩展的线性模型。

Q3 特征降维主要包括什么

「主成分分析法(PCA)」

PCA是一个将数据变换到一个新的坐标系统中的线性变换，使得任何数据的投影的第一大方差在第一个坐标(第一主成分)上，第二大方差在第二个坐标(第二主成分)上，以此类推。

其作用只要是为了让映射后得到的向量具有最大的不相关性。就是说PCA追求的是再将位置后能够最大化保持数据的内在信息。

转载注明出处：https://www.heiqu.com/zzpsfp.html

[一起面试AI]NO.4特征工程主要包括什么？

相关推荐