Logistic Regression · Haolin Song

This Blog is about Logistic Regression Algorithm.

模型原理
问题背景
公式推导

1 模型原理

逻辑回归使用sigmod函数（如下图）对样本进行回归，之后设定阈值将正负样本分开，实际是一种分类算法。 sigmod function

之所以选用sigmod函数，是由于逻辑回归可以看作是利用sigmod函数对后验概率P(y=1|x)的逼近（具体请见[1]）。

2 问题背景

对于给定的m个样本（X_i, y_i）（i属于[1,m]，X为n维向量）进行二分类：y = 0为负例，y = 1为正例。

3 公式推导

3.1 假设函数（hypothesis function）

$h_{\theta }(x) = \frac{1}{1+e^{-(W^{T}X+b)}} = \frac{1}{1+e^{-\theta ^{T}x}}$

注：1) 其中θ表示模型的参数，即w，b； $W^{T}x = w_{1}x_{1} + w_{2}x_{2} + ... + w_{n}x_{n}$ $\theta^{T}x = \theta_{0} + \theta_{1}x_{1} + \theta_{2}x_{2} + ... + \theta_{n}x_{n}$

3.2 预测正确的概率

我们将h_θ(x)所给出的结果看作概率（因为sigmod可以将变量从（-∞，+∞）映射到（0，1）之间），即有：

$p(y = 1 | w, x) = h_{\theta }(x)$

$p(y = 0 | w, x) = 1 - h_{\theta }(x)$

$p(correct) = h_{\theta }(x)^{y}(1-h_{\theta }(x))^{1-y}$

注：1) p(correct)表示模型预测正确的概率：当y = 1即样本为正例时，p(correct) = h_θ(x)；当y = 0即样本为负例时，p(correct) = 1 - h_θ(x)。

2)h_θ(x)的意义：例如对于某患者是否为患病，h_θ(x)输出结果为0.7，则表示患者未患病的概率为70%，患病的概率为30%。

3.3 最大似然估计

由于我们的目标是找到合适的θ使得所有样本的p(correct)最大，即使得模型预测正确所有样本的概率最大，所以我们采用最大似然估计：

$L (\theta) = \prod_{i = 1}^{m}p(correct)^{i} = \prod_{i = 1}^{m}h_{\theta }(x^{i})^{y^{i}}(1-h_{\theta }(x^{i}))^{1-y^{i}}$

连乘不好计算，所以我们对上式取对数：

$l(\theta) = logL (\theta) = \sum_{i = 1}^{m}log(p(correct)^{i}) = \sum_{i = 1}^{m}(y^{i}log(h_{\theta }(x^{i})) + (1-y^{i})log(1-h_{\theta }(x^{i})))$

最优化任务时习惯上我们希望得到函数的最小值，所以对上式取负，即是求解最小值，并得到我们最终的损失函数（交叉熵损失函数）J(θ)：

$J(\theta) = -l(\theta)$

3.4 最佳θ值计算

我们使用梯度下降计算损失函数的最小值，具体算法见[2]，求解梯度（即损失函数偏导）的公式为：

$\frac{\partial J(\theta)}{\partial \theta} = \frac{\partial (-\sum_{i = 1}^{m}(y^{i}log(h_{\theta }(x^{i})) + (1-y^{i})log(1-h_{\theta }(x^{i}))))}{\partial \theta}$

$= -\sum_{i = 1}^{m}(y^{i}\frac{1}{h_{\theta }(x^{i})}\frac{\partial h_{\theta }(x^{i})}{\partial \theta} - (1 - y^{i})\frac{1}{1 - h_{\theta }(x^{i})}\frac{\partial h_{\theta }(x^{i})}{\partial \theta})$

$= -\sum_{i = 1}^{m}(y^{i}\frac{1}{h_{\theta }(x^{i})} - (1 - y^{i})\frac{1}{1 - h_{\theta }(x^{i})})\frac{\partial \frac{1}{1+e^{-\theta ^{T}x^{i}}}}{\partial \theta}$

$= -\sum_{i = 1}^{m}(y^{i}\frac{1}{h_{\theta }(x^{i})} - (1 - y^{i})\frac{1}{1 - h_{\theta }(x^{i})})\frac{x^{i}e^{- \theta ^{T}x^{i}}}{(1 + e^{-\theta ^{T}x^{i}})^{2}}$

$= -\sum_{i = 1}^{m}(y^{i}\frac{1}{h_{\theta }(x^{i})} - (1 - y^{i})\frac{1}{1 - h_{\theta }(x^{i})})x^{i}h_{\theta }(x^{i})^{2}(\frac{1}{h_{\theta }(x^{i})}-1)$