线性支持向量机

2019-08-032019-08-06机器学习5 分钟读完 (大约800个字)

介绍

线性支持向量机是一个用于大规模分类任务的标准方法。它的目标函数线性模型中的公式（1）。它的损失函数是合页（hinge）损失，如下所示

spark, 线性模型

快速迭代聚类

2019-08-012019-08-03机器学习19 分钟读完 (大约2891个字)

谱聚类算法的原理

在分析快速迭代聚类之前，我们先来了解一下谱聚类算法。谱聚类算法是建立在谱图理论的基础上的算法，与传统的聚类算法相比，它能在任意形状的样本空间上聚类且能够收敛到全局最优解。谱聚类算法的主要思想是将聚类问题转换为无向图的划分问题。

流式`k-means`算法

2019-07-312019-07-31机器学习10 分钟读完 (大约1539个字)

当数据是以流的方式到达的时候，我们可能想动态的估计（estimate）聚类的簇，通过新的到达的数据来更新聚类。spark.mllib支持流式k-means聚类，并且可以通过参数控制估计衰减（decay）(或“健忘”(forgetfulness))。这个算法使用一般地小批量更新规则来更新簇。

k-means、k-means++以及k-means算法分析

2019-07-302019-07-31机器学习25 分钟读完 (大约3711个字)

本文会介绍一般的k-means算法、k-means++算法以及基于k-means++算法的k-means||算法。在spark ml，已经实现了k-means算法以及k-means||算法。本文首先会介绍这三个算法的原理，然后在了解原理的基础上分析spark中的实现代码。

特征值分解

2019-07-292019-08-06机器学习5 分钟读完 (大约686个字)

假设向量v是方阵A的特征向量，可以表示成下面的形式：

这里lambda表示特征向量v所对应的特征值。并且一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解为下面的形式：

二分`k-means`算法

2019-07-282019-07-30机器学习15 分钟读完 (大约2219个字)

二分k-means算法是层次聚类（Hierarchical clustering）的一种，层次聚类是聚类分析中常用的方法。层次聚类的策略一般有两种：

聚合。这是一种自底向上的方法，每一个观察者初始化本身为一类，然后两两结合
分裂。这是一种自顶向下的方法，所有观察者初始化为一类，然后递归地分裂它们

二分k-means算法是分裂法的一种。

随机森林

2019-07-252019-07-26机器学习40 分钟读完 (大约6071个字)

Bagging

Bagging采用自助采样法(bootstrap sampling)采样数据。给定包含m个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时，样本仍可能被选中，这样，经过m次随机采样操作，我们得到包含m个样本的采样集。

spark, 组合树

L-BFGS

2019-07-232019-07-24机器学习29 分钟读完 (大约4402个字)

牛顿法

设f(x)是二次可微实函数，又设\(x^{(k)}\)是f(x)一个极小点的估计，我们把f(x)在\(x^{(k)}\)处展开成Taylor级数，并取二阶近似。

spark, 优化算法

带权最小二乘

2019-07-222019-07-23机器学习12 分钟读完 (大约1775个字)

原理

给定n个带权的观察样本\((w_i,a_i,b_i)\):

\(w_i\)表示第i个观察样本的权重；
\(a_i\)表示第i个观察样本的特征向量；
\(b_i\)表示第i个观察样本的标签。

spark, 优化算法

迭代再加权最小二乘

2019-07-202019-07-21机器学习4 分钟读完 (大约635个字)

原理

迭代再加权最小二乘(IRLS)用于解决特定的最优化问题，这个最优化问题的目标函数如下所示：

\[arg min_{\beta} \sum_{i=1}^{n}|y_{i} - f_{i}(\beta)|^{p}\]

spark, 优化算法