技术
  • Pandas 快速数据筛选 数据分析 2019-03-13 1449

    Pandas 中数据选择是非常常用且非常重要的基础操作,但是 Pandas 中提供的方法较多且应用灵活,很容易让初学者搞混,尤其是条件筛选或者进行一些局部计算赋值的操作,还是有一定的技巧性。本文总结了一些数据选择方法,包括基础选择和条件选择两大块,内容相对精简且尽量做到一目了然,主要用于速查。 构建数据 先构建一套样例数据,以辅助对下面内容的理解。 ...

  • 机器学习中的各种熵 机器学习 2019-02-12 4506

    熵 (entropy) 这一词最初来源于热力学。1948 年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,以此来解决对信息的量化度量问题。在机器学习中,“熵” 是一个非常重要的基础内容,在 Logistic 回归、决策树、深度学习计算机视觉、自然语言处理等很多地方都有涉及。本文将详细介绍各种各样的 “熵”。 信息量(amount of informat...

  • 集成学习 机器学习 2018-11-28 5362

    集成学习 集成学习(Ensemble Learning)可以说是机器学习兵器谱上排名第一的 “屠龙刀”,是一个非常万能且有效的强大工具。这把 “屠龙刀” 在各大机器学习竞赛中被广泛使用,曾多次斩下桂冠。集成学习是用多个弱学习器构成一个强学习器,其哲学思想是 “三个臭皮匠赛过诸葛亮”,有时也被称为多分类器系统(multi-classifier system)...

  • 决策树 机器学习 2018-11-09 6046

    决策树介绍 决策树(Decision Tree,DT)是模式识别中进行分类的一种有效方法,利用树分类器可以把一个复杂的多类别分类问题转化为若干个简单分类问题来解决。它不是企图用一个决策规则把多个类别的样本一次分开,而是采用分级的方法,使分类问题逐步得到解决。总结起来,决策树就是一个将输入空间逐步分割的过程,它把输入空间分为一组互不相交的区域,其中某个类别的...

  • Logistic 回归 机器学习 2018-08-03 2990

    算法概述 在 《线性回归》一文中,我们提到过广义线性模型,通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。 而 Logistic 回归是广义线性回归中的重要代表,同线性回归中讲到的一样,因为简单容易实现,也具有很好的解释性,Logistic 在二分类的场景应用中几乎是使用最多的。 Logistic 回归虽然名字里带 “回归”,但它实际...

  • 正则化详细总结 机器学习 2018-07-11 13768

    概念 正则化(Regularization)是机器学习中非常重要的一个技术点,因为它能够简单有效的减少泛化误差,在机器学习的应用实践中出现频率很高,尤其在深度学习模型中,由于其模型参数非常多很容易产生过拟合,使用正则化技术是一个行之有效的方法。 常规的正则化是通过在模型的损失函数中引入一个正则化项,来惩罚模型的复杂度。正则化项通常是模型参数的函数,它使得...

  • 线性回归 机器学习 2018-05-23 4794

    算法概述 开始之前,先大概说一下有监督机器学习的本质是什么?简单点来说,我们经常解决的一类问题就是给定一个函数 f(x) 和输入数据集 X,然后求解输入数据集的各个样本数据在经过函数的映射计算后的输出数据集 Y,而机器学习大部分解决的问题就是在给定输入数据集 X 和输出数据集 Y,来获知函数 f(x),以方便我们利用计算好的 f(x) 去对其他输入数据进行...