集成学习

集成学习 集成学习(Ensemble Learning)可以说是机器学习兵器谱上排名第一的 “屠龙刀”,是一个非常万能且有效的强大工具。这把 “屠龙刀” 在各大机器学习竞赛中被广泛使用,曾多次斩下桂冠。集成学习是用多个弱学习器构成一个强学习器,其哲学思想是 “三个臭皮匠赛过诸葛亮”,有时也被称为多分类器系统(multi-classifier system)...

决策树

决策树介绍 决策树(Decision Tree,DT)是模式识别中进行分类的一种有效方法,利用树分类器可以把一个复杂的多类别分类问题转化为若干个简单分类问题来解决。它不是企图用一个决策规则把多个类别的样本一次分开,而是采用分级的方法,使分类问题逐步得到解决。总结起来,决策树就是一个将输入空间逐步分割的过程,它把输入空间分为一组互不相交的区域,其中某个类别的...

Logistic 回归

算法概述 在 《线性回归》一文中,我们提到过广义线性模型,通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。 而 Logistic 回归是广义线性回归中的重要代表,同线性回归中讲到的一样,因为简单容易实现,也具有很好的解释性,Logistic 在二分类的场景应用中几乎是使用最多的。 Logistic 回归虽然名字里带 “回归”,但它实际...

正则化详细总结

概念 正则化(Regularization)是机器学习中非常重要的一个技术点,因为它能够简单有效的减少泛化误差,在机器学习的应用实践中出现频率很高,尤其在深度学习模型中,由于其模型参数非常多很容易产生过拟合,使用正则化技术是一个行之有效的方法。 常规的正则化是通过在模型的损失函数中引入一个正则化项,来惩罚模型的复杂度。正则化项通常是模型参数的函数,它使得...

人把自己置身于忙碌当中,有一种麻木的踏实,但丧失了真实。你的青春不过只有这些日子。什么是真实?你看到什么,听到什么,做什么,和谁在一起,有一种心灵深处满溢出来的不懊悔,也不羞耻的平和与喜悦。

― 《无问西东》

线性回归

算法概述 开始之前,先大概说一下有监督机器学习的本质是什么?简单点来说,我们经常解决的一类问题就是给定一个函数 f(x) 和输入数据集 X,然后求解输入数据集的各个样本数据在经过函数的映射计算后的输出数据集 Y,而机器学习大部分解决的问题就是在给定输入数据集 X 和输出数据集 Y,来获知函数 f(x),以方便我们利用计算好的 f(x) 去对其他输入数据进行...