简介 基于内容的推荐算法(Content-Based Recommendations,CB)非常古老,应该是最早被使用的推荐算法,虽是一个年代久远的算法,但即便放在深度学习十分火热的当下,基于内容的推荐算法依然被工业界广泛使用,足以证明其...

综述 推荐系统是一个有着诸多复杂因素联动起作用的系统,从诞生到成熟,推荐系统本身就带着很多不确定性。因此,推荐系统在研发完成后,作为技术人员的我们并不是马上就结束了战斗,在往后的日子里,我们必须时时刻刻地知道它当前的状态好不好,在整体环境...

Pandas 中数据选择是非常常用且非常重要的基础操作,但是 Pandas 中提供的方法较多且应用灵活,很容易让初学者搞混,尤其是条件筛选或者进行一些局部计算赋值的操作,还是具有一定的技巧性。本文总结了一些数据选择方法,包括基础选择和条件选...

集成学习介绍 集成学习(Ensemble Learning)可以说是机器学习兵器谱上排名第一的 “屠龙刀”,是一个非常万能且有效的强大工具。这把 “屠龙刀” 在各大机器学习竞赛中被广泛使用,曾多次斩下桂冠。集成学习是用多个弱学习器构成一个...

决策树介绍 决策树(Decision Tree,DT)是模式识别中进行分类的一种有效方法,利用树分类器可以把一个复杂的多类别分类问题转化为若干个简单分类问题来解决。它不是企图用一个决策规则把多个类别的样本一次分开,而是采用分级的方法,使分...

Basemap 是 Python 可视化库 Matplotlib 下的一个工具包,主要功能是绘制二维地图,对于空间数据的可视化非常重要。虽然现在 Python 很多常用的包都已经囊括在 Anaconda 中了,即便没有,也可以使用 PIP ...

样本不均衡的处理方法 假定样本数目 A 类比 B 类多,且严重不平衡。可使用以下几种方法1: 1)A 类欠采样(Undersampling) 随机从 A 采样一组和 B 数量差不多的样本,然后生成树,重复几次,生成森林; 将...

熵 (entropy) 这一词最初来源于热力学。1948 年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,以此来解决对信息的量化度量问题。在机器学习中,“熵” 是一个非常重要的基础内容,在 Logistic 回归、决策树、自然语言处理等...

学习率的重要性 如果把梯度下降算法比作机器学习中的一把 “神兵利器”,那么学习率就是梯度下降算法这把武器对应的 “内功心法”,只有调好学习率这个超参数,才能让梯度下降算法更好地运作,让模型产生更好的效果。 在《梯度下降算法总结》一文中,...