在本章的开始,我们讨论了通过便捷的流水线模型串联不同的数据转换技术与分类器,以帮助我们更高效地训练与评估机器学习模型。进而我们使用流水线进行k折交叉验证,k折交叉验证是模型选择及评估的一种基本技术。使用k折交叉验证,我们绘制了学习曲线和验证曲线以诊断学习算法中过拟合与欠拟合等常见问题。使用网格搜索,进一步对模型进行微调。最后我们学习了混淆矩阵以及各种不同的性能评价指标,在针对特定问题需要进一步优化模型时,这些指标可能是非常有用的。到目前为止,我们已经具备了使用监督机器学习模型来成功构建分类器的基本技能。
在下一章,我们将学习算法集成方法,它使得我们可以通过混合多个模型与分类算法进一步提高机器学习系统的性能。