模型的参数,即权重 $\mathbf{w}$ 和偏置 $b$,是如何学习得到的呢? 逻辑回归是监督分类的一个实例,在该任务中,我们知道每个样本 $x$ 的正确标签 $y$(0 或 1)。 系统通过公式 4. 产生的是 $\hat{y}$,即系统对真实标签 $y$ 的估计值。 我们的目标是学习到一组参数(即 $\mathbf{w}$ 和 $b$),使得每个训练样本的预测值 $\hat{y}$ 尽可能接近其真实标签 $y$。

这需要两个在本章引言中已预示过的组成部分。 第一个一种指标,来衡量当前预测标签 $\hat{y}$ 与真实标注标签 $y$ 之间的接近程度。 我们通常不直接衡量相似性,而是讨论其对立面:系统输出与真实输出之间的距离,并称此距离为损失函数(loss function)或代价函数(cost function)。 在下一节中,我们将介绍逻辑回归以及神经网络中常用的损失函数——交叉熵损失(cross-entropy loss)。

第二个需要的是一个优化算法,用于迭代地更新权重,以最小化该损失函数。 解决这一问题的标准算法是梯度下降(gradient descent);我们将在后续章节中介绍随机梯度下降(stochastic gradient descent)算法。

在接下来的两节中,将以更简单的二元逻辑回归为例来描述这些算法,然后在第 4.8 节中再转向多项逻辑回归。