集成学习介绍 集成学习(Ensemble Learning)可以说是机器学习兵器谱上排名第一的 “屠龙刀”,是一个非常万能且有效的强大工具。这把 “屠龙刀” 在各大机器学习竞赛中被广泛使用,曾多次斩下桂冠。集成学习是用多个弱学习器构成一个...

决策树介绍 决策树(Decision Tree,DT)是模式识别中进行分类的一种有效方法,利用树分类器可以把一个复杂的多类别分类问题转化为若干个简单分类问题来解决。它不是企图用一个决策规则把多个类别的样本一次分开,而是采用分级的方法,使分...

Basemap 是 Python 可视化库 Matplotlib 下的一个工具包,主要功能是绘制二维地图,对于空间数据的可视化非常重要。虽然现在 Python 很多常用的包都已经囊括在 Anaconda 中了,即便没有,也可以使用 PIP ...

样本不均衡的处理方法 假定样本数目 A 类比 B 类多,且严重不平衡。可使用以下几种方法1: 1)A 类欠采样(Undersampling) 随机从 A 采样一组和 B 数量差不多的样本,然后生成树,重复几次,生成森林; 将...

熵 (entropy) 这一词最初来源于热力学。1948 年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,以此来解决对信息的量化度量问题。在机器学习中,“熵” 是一个非常重要的基础内容,在 Logistic 回归、决策树、自然语言处理等...

学习率的重要性 如果把梯度下降算法比作机器学习中的一把 “神兵利器”,那么学习率就是梯度下降算法这把武器对应的 “内功心法”,只有调好学习率这个超参数,才能让梯度下降算法更好地运作,让模型产生更好的效果。 在《梯度下降算法总结》一文中,...

算法概述 在《线性回归》一文中,我们提到过广义线性模型,通过联结函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。 而 Logistic 回归(Logistic Regression)是广义线性回归中的重要代表,同线性回归中讲到...

概述 梯度下降(Gradient Descent)是应用非常广泛的优化算法之一,其应用范围涵盖经典机器学习算法、神经网络、深度学习。机器学习问题很大程度上来说其实就是找到一个合适的目标函数,然后不断优化参数的最优化过程,而梯度下降正是最优...

概述 正则化是机器学习中非常重要的一个技术点,因为它能够简单有效的减少泛化误差,在机器学习的应用实践中出现频率很高,尤其在深度学习模型中,由于其模型参数非常多很容易产生过拟合,使用正则化技术是行之有效的方法,因此正则化技术的研究成为了机器...

人把自己置身于忙碌当中,有一种麻木的踏实,但丧失了真实。你的青春不过只有这些日子。什么是真实?你看到什么,听到什么,做什么,和谁在一起,有一种心灵深处满溢出来的不懊悔,也不羞耻的平和与喜悦。

― 《无问西东》