【机器学习笔录】再论线性回归和逻辑回归

Posted by ShawnD on December 21, 2018

最近拜读了黄海广博士的吴恩达老师的机器学习笔记,有一种相见恨晚的感觉。 从来没有哪一本机器学习或者深度学习的书让我阅读的如此的顺畅,以至于两三天之内连续阅读了近乎十章的内容,还没有停下来的趋势与欲望。从吴恩达老师的课程中,重新颠覆了我对数学上一些概念的认知与用途,以前的我认为矩阵、行列式仅仅是数学的一门学科,一种计算方式,近些天才认识到这是一种数学上解大量方程组的一种简单的,行之有效的伟大思想。可能我的数学基础较差,但这丝毫不影响我对数学的浓厚兴趣,近些天吴恩达老师深入浅出的课程,清晰明了的推导过程,让我在一次沈醉在了数学的世界之中。

坦率地讲,在我写上一篇关于线性回归和逻辑回归时,对它们的理解是一知半解的,在Andrew ng(吴恩达老师)的课程中,讲这两种回归精彩地,十分透彻讲了出来。

线性回归

代价函数 代价函数,在有些地方也翻译作损失函数,总之就是cost这个函数。 在这里解释一下这些参数,懂得这些参数的含义是十分必要的,而且这些参数会始终贯穿学习过程。 m:即输入样本的数量,我们也可以把它看作输入变量的行,因为每一列都对应着一个输入样本的多种特征,所以每一行就是不同的样本。 X:特征/输入变量 theta:参数 y:目标值 Hx:输出值

1
2
3
4
5
6
7
def Linear_costFuc(theta, X, y):       
    m = len(X)                         
    Hx = X * (theta.T)                 
    inner = np.power((Hx - y), 2)      
    cost = np.sum(inner) / (2 * m)     
    return cost                        

梯度下降 i:第几个样本 j:样本的第几个特征 alpha:学习率 梯度下降的过程实际上就是不断对损失函数求导,修正theta值,直到达到最合适的theta值

1
2
3
4
5
6
def Linear_partial_derivative(theta, X, y, learnRate):         
    m = len(X)                                                 
    t = np.sum(((X * theta.T) - y) * X)                        
    print("t : %s", t)                                         
    theta = theta - learnRate * (1 / m) * t                    
    return theta                                               

逻辑回归

代价函数 在逻辑回归中,使用sigmoid函数使得输出值归一化在(-1, 1)之间。

1
2
3
def sigmoid(X, theta):             
    Hx = X * theta.T               
    return 1 / (1 + np.exp(-Hx))   

在逻辑回归中,我们重新定义了代价函数,但也只是在线性回归的基础上进行了修改,方法还是极其地相似。

化简得:

正则化: 在逻辑回归中,为了防止过拟合,引入了正则化。 n:参数theta的数量

1
2
3
4
5
6
7
8
9
10
def LogicRegression_cistFuc(theta, X, y, lamta):                           
    m = len(X)                                                             
    Hx = sigmoid(X, theta)                                                 
    print("HX :%s" % Hx)                                                   
    first = -y * np.log(Hx)                                                
    second = (1 - y) * np.log(1 - Hx)                                      
    reg = lamta / (2 * m) * np.sum(np.power(theta[:, 1:theta.shape[1]], 2))
    cost = np.sum(np.power((first - second) - y, 2)) / m + reg             
    return cost                 

梯度下降 有趣的是,不管是线性回归还是逻辑回归,在求导之后得到的表现形式是几乎一模一样的。 但是要注意,因为Hx的不同,它们两个的本质也是不同的。 推导过程

1
2
3
4
5
6
7
def LogicRegression_partial_derivative(theta, X, y, learnRate, lamta):   
    m = len(X)                                                           
    Hx = sigmoid(X, theta)                                               
    t = np.sum((Hx - y) * X)                                             
    print("t : %s", t)                                                   
    theta = theta - learnRate * ((1 / m) * t + (lamta / m) * theta)      
    return theta                                                         

为什么说逻辑回归是分类算法

在我这里,对逻辑回归的理解,就是将线性回归通过sigmoid函数将输出值归一化到(-1, 1)之间。 因为在训练时只有离散的目标值,对输出值进行判决,来表征输出属于哪一类。以二分类为例,目标值y只有0或者1,当输出值大于0.5时,我们认为输入样本属于1这一类,反之,属于0这一类。所以逻辑回归属于分类算法。