5.11 小结

本章介绍了逻辑回归模型在分类中的应用。

逻辑回归是一种监督式机器学习分类器，它从输入中提取实值特征，每个特征乘以一个权重后求和，并将结果通过sigmoid函数传递以生成概率。使用一个阈值来做出决策。
逻辑回归可以用于两类（例如，正面和负面情感）或多类（多项逻辑回归，例如用于n元文本分类、词性标注等）的情况。
多项逻辑回归使用softmax函数来计算概率。
权重（向量 $\mathbf{w}$ 和偏置 $b$）通过损失函数（如交叉熵损失）从标记的训练集中学习，该损失函数需要被最小化。
最小化这个损失函数是一个凸优化问题，迭代算法如梯度下降被用来找到最优权重。
正则化被用来避免过拟合。
由于其能够透明地研究单个特征的重要性，逻辑回归也是最有用的分析工具之一。

文献与历史注记

逻辑回归是在统计学领域发展起来的，在20世纪60年代已被用于二进制数据的分析，尤其在医学中广泛应用（Cox, 1969）。从20世纪70年代末开始，它成为语言学中研究语言变异的形式基础之一（Sankoff and Labov, 1979）。

然而，直到20世纪90年代，逻辑回归才在自然语言处理中变得普遍，当时它似乎同时从两个方向出现。第一个来源是信息检索和语音处理这两个相邻领域，它们都曾使用回归方法，并且都为NLP贡献了许多其他统计技术。实际上，早期将逻辑回归用于文档路由的例子之一是最早使用（LSI）嵌入作为词表示的NLP应用之一（Schütze et al., 1995）。

与此同时，在20世纪90年代初，IBM Research在名为最大熵建模或maxent（Berger et al., 1996）的名称下开发并应用于NLP，这似乎是独立于统计文献的发展。在这个名称下，它被应用于语言模型（Rosenfeld, 1996）、词性标注（Ratnaparkhi, 1996）、解析（Ratnaparkhi, 1997）、共指消解（Kehler, 1997b）和文本分类（Nigam et al., 1999）。

关于分类的更多信息可以在机器学习教材中找到（Hastie et al., 2001; Witten and Frank, 2005; Bishop, 2006; Murphy, 2012）。

文献与历史注记#

文献与历史注记