决策树 决策树是一种基本的分类与回归方法。它利用分治的思想,将训练样本集(根节点)按某种准则在特征空间上选择某种特征后递归地分成不同的子集(内部节点),当子集满足某种条件后,则停止划分。最终得到的不能划分的子集(叶节点)互不相交,共同组成了最初的训练样本集。上述过程可以看成是if-then规则的集合,即决策树的根结点到叶结点的每一条路径构建了一条规则;路径上内部结点的特征对应规则的条件,而叶结点的类别对应规则的结论。也可以理解为类别空间在特征空间上的条件概率分布,即将P(类别)转为P(类别|特征)。
理论 支持向量机是一种二类分类模型。它的基本模型是定义在特征空间上的间隔(margin)最大的线性分类器。(间隔最大使它有别于感知机) 当训练样本线性可分时,通过硬间隔最大化学习到的分类器,叫线性可分支持向量机,也叫硬间隔支持向量机 当训练样本近似线性可分时,通过软间隔最大化学习到的分类器,叫线性支持向量机,也叫软间隔支持向量机 当训练样本线性不可分时,通过核技巧及软间隔最大化学习到的分类器,叫非线性支持向量机
HMM HMM是关于时序的概率有向图模型,属于生成模型。即先求解联合概率,再利用贝叶斯定理求条件概率。其描述了由一个隐藏的马尔科夫链生成不可观测的状态序列,再由各个状态生成一个观测序列的过程。
总结 在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数分类算法,如决策树、KNN、逻辑回归、支持向量机等,它们都是判别方法,即直接学习出特征输出Y和特征X间的关系。(要么是决策函数Y=f(X),要么是条件分布P(Y|X))但朴素贝叶斯却是生成方法,即通过先验概率分布P(Y)和条件概率分布P(X|Y),求出类别Y和特征X的联合分布P(X,Y)=P(X|Y)P(Y),然后利用贝叶斯公式求出类别的后验概率分布P(Y|X),概率最大的那个类别就是样本所属的类别。[P(Y|X)=P(X,Y)P(X)]
线性回归 线性回归(Linear Regression)是利用线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析方法。其中只有一个自变量的情况称为简单回归,大于一个自变量的情况叫做多元回归。
KNN核心思想 K最近邻算法是指:在给定的训练数据(样本)集中,对于新的输入样本,通过计算新样本与所有训练样本的距离,找到与新样本最近的K个训练样本(K个邻居),对于分类问题,K个训练样本中属于某类标签的个数最多,就把新样本分到那个标签类别中,对于回归问题,将K个训练样本的目标值的均值作为新样本的目标值。
源文件 Linear Regression Exercise
机器学习中求导往往是标量关于权重向量或矩阵的导数,在约定向量为列向量的情况下,采用分母布局可以使得偏导数向量的各元素与原向量各个元素相对应,可以直接执行各种基于梯度的优化方法。
以Spring Boot框架为载体,通过集成hanLP、neo4j、spark-mllib实现基于电影知识图谱的简易问答系统。
resources for the paper 'Get To The Point: Summarization with Pointer-Generator Networks' with python3.x. overview on the post http://www.abigailsee.com/2017/04/16/taming-rnns-for-better-summarization.html or
个人博客
transformer xl在中文文本生成上的尝试(效果意外的好,可写小说、古诗)(transformer xl for text generation of chinese)
CNN-RNN中文文本分类,基于TensorFlow