数据预处理是数据化运营过程中的重要环节,它直接决定了后续数据工作的质量和价值输出。那么数据预处理有哪些铁则或者经验呢?我这里整理如下,与君共勉!
01 数据清洗:4种处理缺失数据的方法
所谓数据清洗,主要处理的就是缺失值、异常值和重复值。清洗,就是对数据集通过丢弃、填充、替换、去重等操作,达到去除异常、纠正错误、补足缺失的目的。
数据缺失通常有两种情况:
一种是数据行记录的缺失,这通常是数据记录丢失,很难找回;
另一种是数据列值的缺失,可能由于某些原因,导致的数据不完整。
这里主要讨论数据列植的缺失情况,通常有如下4种处理思路:
1. 丢弃
这种方法最简单明了,直接删除整行或者整列带有缺失值的记录。但是这种丢弃意味着会减少数据特征,弊端也十分明显。
如下情况,不宜直接使用丢弃的方法:
数据集总体存在大量数据记录不完整情况而且比例较大,比如超过10%,此时删除这些缺失值,就意味着会损失过多的有用信息。
带有缺失值的数据记录大量存在着明显的数据分布规律或特征,比如带有缺失值的数据记录是我们的目标标签主要集中在一类或者几类中,如果此时删除这些数据记录,将会使得对应类别的数据样本丢失大量数据,导致模型过拟合或者分类不准确。
2. 补全
相对于丢弃而言,补全则是一种更加合理的处理方法。通过一定的方法将缺失的数据补上,从而形成完整的数据记录。
常用的补全方法有:
统计法:对于数值型数据,可以使用均值、加权平均值、中位数等方法补全;而对于分类型数据,一般会是用类别众数最多的数值补足。
模型法:更多的时候,我们会基于其他字段,将缺失字段作为目标变量进行预测,从而达到最为可能的补全值。
专家补全:对于一些专业性非常强的数据,可以通过自学业界专家,来补全缺失数据,这种方法在很多情况下也是一种非常重要的补全途径。
其他方法:例如随机法、特殊值法,多重填补法等。
3. 真值转换法
在某些情况下,我们可能无法得知缺失值的分布规律,而且也无法应用上面的方法进行补全;或者我们认为当前的缺失记录也是数据的一种规律,不应该轻易的对缺失数据进行处理,那么此时就可以使用真值转换法来处理。
这种方法的观点是,我们承认缺失值的存在,并且把数据缺失也作为数据分布规律的一部分看待,将变量的实际值和缺失值都作为输入维度参与后续的数据处理和模型计算中。但是真实值是可以直接参与计算的,缺失值通常无法参与运算,因此需要对缺失值进行真值转换。
例如对于性别一列,现在存在男、女和未知(空值)三个状态,我们就可以把该列转换为性别_男(0),性别_女(1)和性别_未知(2)。
4.不处理
对于缺失值,不做任何处理,也是一种处理缺失值的思路。这种方式主要取决于后续的模型运算,很多模型对于缺失值有容忍度或灵活的处理方法,因此在数据预处理阶段可以不作处理。
02 数据转换
分类数据和顺序数据是常见的数据类型,需要很好的转换这两种类型数据。
分类数据:分类数据是值某些数据属性只能归于某一类别的非数值型数据,例如性别中的男,女就是分类数据。
顺序数据:顺序数据只能归于某一类有序类别的非数值型数据,例如用户的价值度分为高、中、低等。
分类数据和顺序数据要参与模型运算,通常都会转化为数值类数据。而将非数值型数据转换为数值型数据的最佳方法是:将所有分类或顺序变量的值域从一列多值的形态转换为多列只包含真值的形态��������,���ϲ���,其中国真值可以用 True、False 或0、1的方式来表示。
比如:
转换后:
而之所以不能直接用数字来表示不同的分类和顺序数据,是因为我们无法准确还原不同类别信息之间的信息差异和相互关联性。
03 数据降维
数据降维就是降低数据的维度数量,从而简化我们的训练难度和减小特征之间的关联性产生的影响。
1. 基于特征选择的降维
基于特征选择的降维指的是根据一定规则和经验,直接选取原有维度的一部分参与后续的计算和建模过程,用选择的维度代替所有的维度,整个过程不产生新的维度。
经验法:根据业务专家或数据专家的以往经验、实际数据情况、业务理解程度等进行综合考虑,从而达到降低数据维度的目的。
测算法:通过不断测试多种维度选择参与计算,通过结果来反复验证和调整,并最终找到最佳特征方案。
基于统计分析的方法:通过相关性分析不同维度间的线性相关性,在相关性高的维度中进行人工去除或筛选;或通过计算不同维度间的互信息量,找到具有较高互信息量的特征集,然后去除或留下其中的一个特征。
机器学习算法:通过机器学习算法得到不同特征的特征值或权重,然后再根据权重来选择较大的特征。
2. 基于特征转换的降维
基于特征转换的降维是按照一定的数学变换方法,把给定的一组相关变量通过数学模型将高纬空间的数据点映射到低维度空间中,然后利用映射后变量的特征来表示原有变量的总体特征,最主要的方法就是主成分分析法。
PCA(主成分分析):主成分分析的基本方法是按照一定的数学变换方法,把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。
3. 基于特征组合的降维
基于特征组合的降维,实际上是将输入特征与目标预测变量做拟合的过程,它将输入特征经过运算,并得出能对目标变量做出很好解释的复合特征,这些特征不是原有的单一特征,而是经过组合和变换后的新特征。
但是其实特征组合的方法,很多时候并不能减少特征的数量,反而可能会增加特征。因此从严格意义上讲,特征组合不属于降维的过程,而是特征工程中与降维并行的模块。
04 解决样本分布不均衡
所谓的不均衡指的是不同类别的样本量差异非常大,样本类别分布不均衡主要出现再与分类相关的建模问题上。
样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种。
大数据分布不均衡:这种情况下整体数据规模不大,只是其中的小样本类的占比较少。但是从每个特征的分布来看,小样本也覆盖了大部分或全部的特征。
小数据分布不均衡:这种情况下整体数据规模小,并且占据少量样本比例的分类数量也少,这会导致特征分布的严重不均衡。
可以通过过抽样和欠抽样的方法来解决样本不均衡的问题:
过抽样:又称为上采样,其通过增加分类中少数类样本的数量来实现样本均衡,最直接的方法是简单复制少数类样本以形成多条记录。
欠抽样:又称为下采样,其通过减少分类中多数类样本的数量来实现样本均衡,最直接的方法是随机去掉一些多数类样本来减少多数类的规模。
05 解决数据的共线性问题
所谓共线性问题指的就是输入的自变量之间存在较高的线性相关度,共线性问题会导致回归模型的稳定性和准确性大大降低。此外过多无关的维度参与计算也会浪费大量的计算资源。
解决共线性的常用方法有如下几种:
1. 增大样本量
通过增加样本量来消除由于数据量不足而出现的偶然共线性现象,在可行的前提下这种方法是需要优先考虑的。
2. 岭回归法
岭回归分析是一种专用于共线性问题的有偏估计回归方法,实质上是一种改良的最小二乘估计法。它通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价来获得更实际和可靠性更强的回归系数。
3. 逐步回归法
逐步回归法是每次引入一个自