0

神经网络权重的初始化

最近在学习神经网络和深度学习的时候遇到了权重初始化的问题,权重的初始化影响到了算法的学习速度,在初始化权重的时候应该从均值为$0$,方差为${1}/{\sqrt{n_{in}}}$的正态分布中去随机初始化,其中$n_{in}$为输入神经元的数量。下面就来讨论原因。

在权重初始化的时候,我们一般会从标准正态分布$\omega\sim\mathcal{N}(0, 1)$中去随机生产权重,然后从标准正态分布中去随机产生偏置$b$,为了说明问题,这里举个例子,假设我们有$1000$个输入神经元,如下图所示,然后我们和输入层相连的第一个隐藏层的第一个神经元。

2016-11-28_212430http://neuralnetworksanddeeplearning.com/images/tikz32.png

图片来自:http://neuralnetworksanddeeplearning.com/images/tikz32.png

Continue Reading

0

集成学习——Bagging与Random Forest

前言

集成学习是一类算法的集合,不但包括著名的AdaBoost,还囊括提升树,梯度提升,Bagging以及Random Forest等。本文将介绍Bagging(装袋)与Random Forest(随机森林)。

要得到泛化性能强的集成,应该设法让集成中的基学习器尽可能具有较大的差异。给定一个训练数据集,我们采用相互有交叠的采样子集,每个采用子集训练得到一个集学习器,这样保证了集学习器能相互“独立”并且有比较好的学习性能。

本文主要内容为

  1. Bagging
  2. Random Forest

Continue Reading

0

决策树——ID3和C4.5

前言

本文介绍的是决策树算法,涉及的算法内容是ID3和C4.5,CART算法在决策树(2)中会介绍,本文的知识点是李航博士《统计学习》第5章和周志华老师的《机器学习》的知识总结,文末会给出ID3算法的Python版本的代码,改代码修改自Peter Harrington的《机器学习实战》,仅供学习参考。文章的内容编排如下:

  1. 决策树简介
  2. 决策树的特征选择
  3. 决策树生成
    1. ID3算法
    2. C4.5算法
  4. 决策树剪枝
  5. ID3算法的Python代码
  6. 总结

Continue Reading

0

机器学习读书笔记

前言

我在大概大二下学期的时候就开始学习机器学习了,那个时候专业是电子商务,因为参与了学院的SRP项目,有幸看了网易公开课上Andrew Ng的斯坦福机器学习公开课,刚开始学的第一遍几乎不知道他在讲什么,自己又完全不会编程,也无法自己实现机器学习算法,也不知道怎么去学习,就不了了之。上了大三选修了数据挖掘课程,明白了大家常说的数据挖掘十大算法,开始用R语言写程序,那个时候对程序也是一知半解,再到后来由于没有项目,加上学习了那么久的数据挖掘和机器学习自己还是没有弄出点成绩,因此内心很受挫,决定考个计算机的研究生,继续学习机器学习,现在到了研二上学期了,走过了研一的那些坎坷,做了很多脏活累活,现在打算开始整理机器学习以及自己写的部分Python代码,作为自己对这门技术的热爱和坚持的一种表达吧! Continue Reading