在进行数据分析项目案例之前,需要了解数据的情况,有时候拿到的数据并不是想象中的完美数据,那么就需要进行预处理后才能使用。为了系统的缕清预处理的一般的步骤,这里进行详细的梳理,采用sklearn工具包和手写代码验证的方式进行。
数据标准化1.1 标准化定义
标准化的定义:又被称为均值移除(mean removal),对不同样本的同一特征值进行处理,最终均值为0,标准差为1,采用此种方式我们只需要使用如下公式即可。
1.2 为什么要进行数据标准化?在机器学习中,很多的算法和评估模型的好坏的方法都是基于距离(残差)的处理