决策树 决策树是一种基本的分类与回归方法。它利用分治的思想,将训练样本集(根节点)按某种准则在特征空间上选择某种特征后递归地分成不同的子集(内部节点),当子集满足某种条件后,则停止划分。最终得到的不能划分的子集(叶节点)互不相交,共同组成了最初的训练样本集。上述过程可以看成是if-then规则的集合,即决策树的根结点到叶结点的每一条路径构建了一条规则;路径上内部结点的特征对应规则的条件,而叶结点的类别对应规则的结论。也可以理解为类别空间在特征空间上的条件概率分布,即将$P\left( \text{类别} \right) $转为$P\left( \text{类别}\left| \text{特征} \right. \right)$。
理论 支持向量机是一种二类分类模型。它的基本模型是定义在特征空间上的间隔(margin)最大的线性分类器。(间隔最大使它有别于感知机) 当训练样本线性可分时,通过硬间隔最大化学习到的分类器,叫线性可分支持向量机,也叫硬间隔支持向量机 当训练样本近似线性可分时,通过软间隔最大化学习到的分类器,叫线性支持向量机,也叫软间隔支持向量机 当训练样本线性不可分时,通过核技巧及软间隔最大化学习到的分类器,叫非线性支持向量机
HMM HMM是关于时序的概率有向图模型,属于生成模型。即先求解联合概率,再利用贝叶斯定理求条件概率。其描述了由一个隐藏的马尔科夫链生成不可观测的状态序列,再由各个状态生成一个观测序列的过程。
总结 在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数分类算法,如决策树、KNN、逻辑回归、支持向量机等,它们都是判别方法,即直接学习出特征输出$Y$和特征$X$间的关系。(要么是决策函数$Y=f(X)$,要么是条件分布$P(Y|X)$)但朴素贝叶斯却是生成方法,即通过先验概率分布$P(Y)$和条件概率分布$P(X|Y)$,求出类别$Y$和特征$X$的联合分布$P(X,Y)=P(X|Y)P(Y)$,然后利用贝叶斯公式求出类别的后验概率分布$P(Y|X)$,概率最大的那个类别就是样本所属的类别。[$P\left( Y|X \right) =\frac{P\left( X,Y \right)}{P\left( X \right)}$]
线性回归 线性回归(Linear Regression)是利用线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析方法。其中只有一个自变量的情况称为简单回归,大于一个自变量的情况叫做多元回归。
KNN核心思想 K最近邻算法是指:在给定的训练数据(样本)集中,对于新的输入样本,通过计算新样本与所有训练样本的距离,找到与新样本最近的K个训练样本(K个邻居),对于分类问题,K个训练样本中属于某类标签的个数最多,就把新样本分到那个标签类别中,对于回归问题,将K个训练样本的目标值的均值作为新样本的目标值。
源文件 Linear Regression Exercise
机器学习中求导往往是标量关于权重向量或矩阵的导数,在约定向量为列向量的情况下,采用分母布局可以使得偏导数向量的各元素与原向量各个元素相对应,可以直接执行各种基于梯度的优化方法。