0

Coding ML:一个简单的XOR网络的构建

[latexpage]

神经网络是一个很迷人的算法,有时候也让人很难懂。最近需要构建一个XOR的网络,什么是XOR的网络?XOR是抑或的意思,所谓的亦或就是“同为非,异为是”,就是说对于$x$和$y$,如果它们都是true,那么它们的亦或的结果就是false,如果他们的不都是true,那么它们的亦或的结果就是true。

我们先把网络分成两层,第一层是输入层,第二层是输出层。对于第一层,首先要求“与”的值,然后第二个结果再求得到的“与”的结果的的最终值,说了那么多有点含糊,那么看下个表 Continue Reading

0

scikit-learn奇技淫巧——LinearRegression

[latexpage]

Scikit-learn是Python机器学习的一个很强大的库,最近刚开始接触scikit-learn,就以奇技淫巧的方式来介绍一下它的使用吧,本文以线性回归为例

线性回归的内容主要在本站的机器学习——回归目录下有一些介绍,线性回归的模型一般为
\begin{equation}
f(x)=\omega_0{x_0}+\omega_1{x_1}+…+\omega_n{x_n}+\epsilon
\end{equation}
其中$\omega_i$是回归系数,$x_i$是方程的特征,$\epsilon$是模型的误差项,是模型还没有考虑的部分 Continue Reading

0

Numpy奇技淫巧——np.std与matlab的std的区别

[latexpage]

numpy是一款很牛的Python的矩阵计算库,其底层接口调用C与BLAS,计算速度还是非常理想的,numpy奠定了Python的数据分析利器的地位,是Pandas库的基础。

最近学习朴素贝叶斯分类器,对连续型的类型计算其标准差,但是发现了matlabstdnumpynp.std的一些不同。代码如下 Continue Reading

0

Pandas奇技淫巧——Pandas多重标准筛选数据

Pandas一直都是我处理数据的首选库,最近在处理Boston的房价数据,当我要把房间数大于等于5小于4的数据筛选出来的时候一直搞不定,查了谷歌之后从StackOverflow上一个Truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()的问题找到了答案,刚开始的时候我是这么做的

Continue Reading

1

pip修改软件源

pip是很常用的Python库的安装工具,但是默认情况下,pip的软件源是https://pypi.python.org/simple/,这是PyPi的官方默认的软件源,对于中国的Python开发者来说,这意味着下载软件的速度会很慢,比如安装pandas库。其实PyPi在中国也部署了软件源,分别是

Continue Reading

0

集成学习——Bagging与Random Forest

前言

集成学习是一类算法的集合,不但包括著名的AdaBoost,还囊括提升树,梯度提升,Bagging以及Random Forest等。本文将介绍Bagging(装袋)与Random Forest(随机森林)。

要得到泛化性能强的集成,应该设法让集成中的基学习器尽可能具有较大的差异。给定一个训练数据集,我们采用相互有交叠的采样子集,每个采用子集训练得到一个集学习器,这样保证了集学习器能相互“独立”并且有比较好的学习性能。

本文主要内容为

  1. Bagging
  2. Random Forest

Continue Reading