数据预处理 1数据质量
基本属性:正确性,完整性,一致性
2数据审计
运用一定的规律和评价方法,发现数据中存在的问题。如:缺失值,噪声值,不一致值,不完整值。
数据审计的三种类型:预定义审计,自定义审计,可视化审计
3数据清洗 3.1缺失数据清洗三个活动:缺失识别,缺失分析,缺失处理
方法:较为简单缺失,可以忽略,删除,插值等,复杂的:模型选择法,模式混合法等
3.2冗余数据清洗方法:重复过滤,直接过滤,间接过滤,条件过滤
3.3噪声数据处理方法:分箱,聚类,回归
4数据变换 5数据集成对来自不同数据源的数据进行集成,然后才能分析处理。
5.1基本类型内容集成
结果集成
5.2主要问题模式集成
数据冗余
冲突检测与消除
6其他预处理方法 6.1数据脱敏简单来说就是在不影响数据分析结果的准确性前提下对敏感数据进行变换,过滤,删除等操作,降低数据的敏感性。
6.2数据规约减少数据规模,从而提升数据分析效率和效果。也是具有前提条件的。
6.3数据标注通过增加数据标注(颜色,纹理,词性,形状等)提高数据检索,洞察,分析和挖掘的效果和效率。