在本章中,我们学习了如何使用机器学习算法根据文本文档的情感倾向对其进行分类,这是自然语言处理领域中情感分析的基本工作。我们不仅学习了如何使用词袋模型对文档进行编码,而且学习了如何使用词频-逆文档频率来矫正词频权重。 在对文本进行情感分析的过程中,由于生成的特征向量巨大,导致文本数据处理会产生较高的计算成本。最后一节中,我们学习了外存和增量学习算法,它们无需将整个数据集同时加载到内存就能够完成对机器学习模型的训练。 在下一章,我们将使用文档分类器,并将学习如何将其嵌入到Web应用中。