理论基础
探索和利用(EE)问题 探索与利用(Exploration and Exploitation)问题简称 EE 问题,是计算广告和推荐系统里最常见的两大问题之一(另外一个是冷启动问题)。EE 问题中的利用(Exploitation),表示对用户比较确定的兴趣,要利用开采迎合;而探索(Exploration)则表示光对着用户已知的兴趣使用,用户很快会腻,所以要...
循环神经网络(recurτent neural network ,RNN)的主要用途是处理和预测序列数据。它能够挖掘数据中的时序信息以及语义信息的深度表达能力被充分利用,并在语音识别、语言模型、机器翻译以及时序分析等方面实现了突破。 RNN 网络结构特点 全连接神经网络或卷积神经网络模型中,网络结构都是从输入层到隐含层再到输出层,层与层之间是全连接或部分...
CNN(Convolutional Neural Network,卷积神经网络)是一种主要用于图像处理和计算机视觉任务的深度学习模型。它通过卷积操作和池化操作来有效地对图像数据进行特征提取,并通过全连接层来进行分类或回归。 CNN 的关键特点是它利用了卷积操作来处理数据。卷积操作通过使用卷积核(也称为过滤器或滤波器)与输入数据的局部区域进行逐元素相乘,并将...
学习率的重要性 如果把梯度下降算法比作机器学习中的一把 “神兵利器”,那么学习率就是梯度下降算法这把武器对应的 “内功心法”,只有调好学习率这个超参数,才能让梯度下降算法更好地运作,让模型产生更好的效果。 在《梯度下降算法总结》一文中,我们已经谈到过在实际应用中梯度下降学习算法可能会遇到局部极小值和鞍点两大挑战。那么,什么样的梯度下降才算是 “合格” 的...
概述 梯度下降是应用非常广泛的优化算法,也是目前最常见的优化神经网络的方法之一。从简单的线性回归到当下火热的深度学习,处处可见梯度下降的身影,由此可见梯度下降的重要性。现在很多知名的深度学习库都已经包含了各种梯度下降优化算法的实现(如 Tensorflow,Cafe,Keras),但依然很有必要去了解梯度下降的底层逻辑,熟知梯度下降不同变种之间的区别,并能...
熵 (entropy) 这一词最初来源于热力学。1948 年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,以此来解决对信息的量化度量问题。在机器学习中,“熵” 是一个非常重要的基础内容,在 Logistic 回归、决策树、深度学习计算机视觉、自然语言处理等很多地方都有涉及。本文将详细介绍各种各样的 “熵”。 信息量(amount of informat...
概念 正则化(Regularization)是机器学习中非常重要的一个技术点,因为它能够简单有效的减少泛化误差,在机器学习的应用实践中出现频率很高,尤其在深度学习模型中,由于其模型参数非常多很容易产生过拟合,使用正则化技术是一个行之有效的方法。 常规的正则化是通过在模型的损失函数中引入一个正则化项,来惩罚模型的复杂度。正则化项通常是模型参数的函数,它使得...