分类: 机器学习

3 篇文章

特征选择
特征选择简介 特征选择(Feature Selection) 在机器学习当中通常指在构建模型之前,从原本很多的特征当中,选择更富有信息更能做出好的预测结果的特征,即一个特征数量从多到少的过程。与之对应的是特征工程,在原本不多的特征当中,通过各种方法,生成更多更好的特征,即一个特征数量少到多的过程。本文主要讨论特征选择的策略和方法,其他降维技术如PC…
异常值处理
异常值的产生的原因/影响 我们通常把偏离整个样本总体的观测值称为异常值. 数据输入误差: 指在数据收集, 输入的过程中, 人为错误造成的误差. 比如某人的月收入是1W, 因为人为错误的多敲了一个0, 则月收入了变成了10W, 这个样本相比较其他样本是异常的. 测量误差: 这个是最常见的误差来源, 比如某个测量仪器损坏了, 那个这个仪器的所有测量值都…
缺失数据处理
缺失值产生的原因: 缺失值的产生原因多种多样,主要分为机械原因和人为原因。机械原因是由机械导致的数据缺失,比如数据存储的失败、存储器损坏、机械故障导致某段时间的数据未能收集(对于定时数据采集而言). 人为原因是由人的主观失误或有意隐瞒造成的数据缺失. 从缺失的分布来看,缺失值主要分为以下三类: 完全随机丢失(Missing Completely a…