机器学习算法最终学习结果的优劣取决于两个主要因素:数据的质量和数据中蕴含的有用信息的数量。因此,在将数据集应用于学习算法之前,对其进行检验及预处理是至关重要的。在本章中,我们将讨论主要的数据预处理技术,使用这些技术可以高效地构建好的机器学习模型。 本章将涵盖如下主题: ·数据集中缺失数据的删除和填充 ·数据格式化 ·模型构建中的特征选择