支持向量机的基本原理

2024-05-20 07:57

1. 支持向量机的基本原理

支持向量机的主要思想是：建立一个最优决策超平面，使得该平面两侧距离该平面最近的两类样本之间的距离最大化，从而对分类问题提供良好的泛化能力。
对于一个多维的样本集，系统随机产生一个超平面并不断移动，对样本进行分类，直到训练样本中属于不同类别的样本点正好位于该超平面的两侧，满足该条件的超平面可能有很多个，SVM正式在保证分类精度的同时，寻找到这样一个超平面，使得超平面两侧的空白区域最大化。
支持向量机中的支持向量是指训练样本集中的某些训练点，这些点最靠近分类决策面，是最难分类的数据点。SVM中最优分类标准就是这些点距离分类超平面的距离达到最大值；“机”是机器学习领域对一些算法的统称，常把算法看做一个机器，或者学习函数。
SVM是一种有监督的学习方法，主要针对小样本数据进行学习、分类和预测，类似的根据样本进行学习的方法还有决策树归纳算法等。

支持向量机的应用实例
支持向量机是一种监督模式识别和机器学习方法，采用最大分类间隔准则实现有限训练样本情况下推广能力的优化。
通过核函数间接实现非线性分类或函数回归，支持向量机通常简写作SVM。
支持向量机使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险，是一个具有稀疏性和稳健性的分类器。
支持向量机可以通过核方法进行非线性分类，是常见的核学习方法之一。
支持向量机在人像识别、文本分类等模式识别问题中有得到应用。

支持向量机的基本原理

2. 支持向量机原理

支持向量机方法的基本思想是：定义最优线性超平面，并把寻找最优线性超平面的算法归结为求解一个凸规划问题。进而基于Mercer核展开定理，通过非线性映射φ，把样本空间映射到一个高维乃至于无穷维的特征空间（Hilbert空间），使在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题（Nello Cristianini，2005）。简单地说就是升维和线性化。一般的升维都会带来计算的复杂化。这里自然发生的两个问题是如何求得非线性映射φ和解决算法的复杂性。SVM方法巧妙地解决了这两个难题：由于应用了核函数的展开定理，所以根本不需要知道非线性映射的显式表达式；由于是在高维特征空间中应用线性学习机的方法，所以与线性模型相比不但几乎不增加计算的复杂性，而且在某种程度上避免了“维数灾”。另外，SVM是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度的定义及大数定律等，因此不同于现有的统计方法。从本质上看，它避开了从归纳到演绎的传统过程，实现了高效的从训练样本到预报样本的“转导推理”（transductive inference），大大简化了通常的分类和回归等问题。SVM的最终决策函数只由少数的支持向量所确定，计算的复杂性取决于支持向量的数目，而不是样本空间的维数，这在某种意义上避免了“维数灾”。如果说神经网络方法是对样本的所有因子加权的话，SVM方法是对只占样本集少数的支持向量样本“加权”。当预报因子与预报对象间蕴涵的复杂非线性关系尚不清楚时，基于关键样本的方法可能优于基于因子的“加权”。少数支持向量决定了最终结果，这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本，而且注定了该方法不但算法简单，而且具有较好的“鲁棒”性。由于有较为严格的统计学习理论做保证，应用SVM方法建立的模型具有较好的推广能力。SVM方法可以给出所建模型的推广能力的确定的界，这是目前其它任何学习方法所不具备的。
随着支持向量机理论的深入研究，出现了许多变种的支持向量机，如Sheng-wei Fe（2009）提出的两类重要的预测技术：分类和回归。其中分类问题预测要求观察值是离散的，而回归问题主要针对决策属性值是连续的情况，它通过学习训练样本集建立一个回归器，然后在条件属性给定的情况下进行预测。
支持向量机回归分为线性回归和非线性回归，其原理如下：
（1）支持向量机线性回归
设样本集为：（x1，y1），…，（xi，yi），x∈Rn，y∈R，回归函数用下列线性方程来表示：
f（x）=w·x＋b （4.14）
假设所有训练数据在ε精度下如图4.5所示无误差地用线性函数拟合，即

基坑降水工程的环境效应与评价方法


图4.5 支持向量机回归

考虑到允许误差的情况，引入松弛因子ξi，  ，则式（4.13）变为

基坑降水工程的环境效应与评价方法

其中常数C＞0，表示对超出误差ε的样本的惩罚程度，ξi，  为松弛变量的上限与下限。为此构造拉格朗日函数：

基坑降水工程的环境效应与评价方法

得到其对偶问题为：

基坑降水工程的环境效应与评价方法


基坑降水工程的环境效应与评价方法


基坑降水工程的环境效应与评价方法

可以得到回归函数为：
其中，αi，  将只有一小部分小为零，它们对应的样本就是支持向量。
（2）支持向量机非线性回归
以上讨论的是线性问题，对于非线性问题，把输入样本xi通过ψ：x→H映射到高维特征空间H（可能是无穷维）。当在特征空间中构造最优超平面时，实际上只需进行内积运算，而这种内积运算是可以用原空间中的函数来实现的，没有必要知道ψ的形式。因为只要核函数K（xi，xj）满足Mercer条件，它就对应某一变换空间的内积即K（xi，xj）=ψ（i）·ψ（xj）。这一点提供了可能导致的“维数灾难”问题解决方法。
由线性支持向量回归可知，二次规划的拉格朗日目标函数：

基坑降水工程的环境效应与评价方法

其对偶形式：

基坑降水工程的环境效应与评价方法

可以得到回归函数为：

基坑降水工程的环境效应与评价方法

传统的拟合方法通常是在线性方程后面加高阶项。由此增加的可调参数增加了过拟合的风险。支持向量回归用核函数即能作非线性回归，达到了“升维”的目的，增加的可调参数很少，过拟合仍能控制。

3. 支持向量机原理

支持向量机原理SVM简介
支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。



SVM算法原理
SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如下图所示，  \boldsymbol{w}\cdot x+b=0  即为分离超平面，对于线性可分的数据集来说，这样的超平面有无穷多个（即感知机），但是几何间隔最大的分离超平面却是唯一的。


在推导之前，先给出一些定义。假设给定一个特征空间上的训练数据集

 T=\left\{ \left( \boldsymbol{x}_1,y_1 \right) ,\left( \boldsymbol{x}_2,y_2 \right) ,...,\left( \boldsymbol{x}_N,y_N \right) \right\} 

其中， \boldsymbol{x}_i\in \mathbb{R}^n  ，  y_i\in \left\{ +1,-1 \right\} ,i=1,2,...N  ， x_i 为第  i  个特征向量，  y_i  为类标记，当它等于+1时为正例；为-1时为负例。再假设训练数据集是线性可分的。

几何间隔：对于给定的数据集  T  和超平面 w\cdot x+b=0 ，定义超平面关于样本点  \left( x_i,y_i \right)  的几何间隔为

 \gamma _i=y_i\left( \frac{\boldsymbol{w}}{\lVert \boldsymbol{w} \rVert}\cdot \boldsymbol{x}_{\boldsymbol{i}}+\frac{b}{\lVert \boldsymbol{w} \rVert} \right) 

超平面关于所有样本点的几何间隔的最小值为

 \gamma =\underset{i=1,2...,N}{\min}\gamma _i 

实际上这个距离就是我们所谓的支持向量到超平面的距离。

根据以上定义，SVM模型的求解最大分割超平面问题可以表示为以下约束最优化问题

 \underset{\boldsymbol{w,}b}{\max}\ \gamma 

 s.t.\ \ \ y_i\left( \frac{\boldsymbol{w}}{\lVert \boldsymbol{w} \rVert}\cdot \boldsymbol{x}_{\boldsymbol{i}}+\frac{b}{\lVert \boldsymbol{w} \rVert} \right) \ge \gamma \ ,i=1,2,...,N 

将约束条件两边同时除以  \gamma  ，得到

 y_i\left( \frac{\boldsymbol{w}}{\lVert \boldsymbol{w} \rVert \gamma}\cdot \boldsymbol{x}_{\boldsymbol{i}}+\frac{b}{\lVert \boldsymbol{w} \rVert \gamma} \right) \ge 1 

因为  \lVert \boldsymbol{w} \rVert \text{，}\gamma  都是标量，所以为了表达式简洁起见，令

\boldsymbol{w}=\frac{\boldsymbol{w}}{\lVert \boldsymbol{w} \rVert \gamma}

b=\frac{b}{\lVert \boldsymbol{w} \rVert \gamma} 

得到

y_i\left( \boldsymbol{w}\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) \ge 1,\ i=1,2,...,N

又因为最大化  \gamma  ，等价于最大化  \frac{1}{\lVert \boldsymbol{w} \rVert} ，也就等价于最小化  \frac{1}{2}\lVert \boldsymbol{w} \rVert ^2  （ \frac{1}{2} 是为了后面求导以后形式简洁，不影响结果），因此SVM模型的求解最大分割超平面问题又可以表示为以下约束最优化问题

 \underset{\boldsymbol{w,}b}{\min}\ \frac{1}{2}\lVert \boldsymbol{w} \rVert ^2 

 s.t.\ \ y_i\left( \boldsymbol{w}\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) \ge 1,\ i=1,2,...,N 

这是一个含有不等式约束的凸二次规划问题，可以对其使用拉格朗日乘子法得到其对偶问题（dual problem）。

首先，我们将有约束的原始目标函数转换为无约束的新构造的拉格朗日目标函数

L\left( \boldsymbol{w,}b,\boldsymbol{\alpha } \right) =\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2-\sum_{i=1}^N{\alpha _i\left( y_i\left( \boldsymbol{w}\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) -1 \right)} 

其中  \alpha _i  为拉格朗日乘子，且  \alpha _i\ge 0  。现在我们令

 \theta \left( \boldsymbol{w} \right) =\underset{\alpha _{_i}\ge 0}{\max}\ L\left( \boldsymbol{w,}b,\boldsymbol{\alpha } \right) 

当样本点不满足约束条件时，即在可行解区域外：

 y_i\left( \boldsymbol{w}\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) <1 

此时，将 \alpha _i  设置为无穷大，则  \theta \left( \boldsymbol{w} \right)  也为无穷大。

当满本点满足约束条件时，即在可行解区域内：

y_i\left( \boldsymbol{w}\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) \ge 1 

此时，  \theta \left( \boldsymbol{w} \right)  为原函数本身。于是，将两种情况合并起来就可以得到我们新的目标函数

 \theta \left( \boldsymbol{w} \right) =\begin{cases} \frac{1}{2}\lVert \boldsymbol{w} \rVert ^2\ ,\boldsymbol{x}\in \text{可行区域}\\ +\infty \ \ \ \ \ ,\boldsymbol{x}\in \text{不可行区域}\\ \end{cases} 

于是原约束问题就等价于

 \underset{\boldsymbol{w,}b}{\min}\ \theta \left( \boldsymbol{w} \right) =\underset{\boldsymbol{w,}b}{\min}\underset{\alpha _i\ge 0}{\max}\ L\left( \boldsymbol{w,}b,\boldsymbol{\alpha } \right) =p^* 

看一下我们的新目标函数，先求最大值，再求最小值。这样的话，我们首先就要面对带有需要求解的参数  \boldsymbol{w}  和  b 的方程，而  \alpha _i 又是不等式约束，这个求解过程不好做。所以，我们需要使用拉格朗日函数对偶性，将最小和最大的位置交换一下，这样就变成了：

 \underset{\alpha _i\ge 0}{\max}\underset{\boldsymbol{w,}b}{\min}\ L\left( \boldsymbol{w,}b,\boldsymbol{\alpha } \right) =d^* 

要有  p^*=d^*  ，需要满足两个条件：

① 优化问题是凸优化问题

② 满足KKT条件

首先，本优化问题显然是一个凸优化问题，所以条件一满足，而要满足条件二，即要求

 \begin{cases} \alpha _i\ge 0\\ y_i\left( \boldsymbol{w}_{\boldsymbol{i}}\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) -1\ge 0\\ \alpha _i\left( y_i\left( \boldsymbol{w}_{\boldsymbol{i}}\cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) -1 \right) =0\\ \end{cases} 

为了得到求解对偶问题的具体形式，令  L\left( \boldsymbol{w,}b,\boldsymbol{\alpha } \right)  对  \boldsymbol{w} 和  b  的偏导为0，可得

\boldsymbol{w}=\sum_{i=1}^N{\alpha _iy_i\boldsymbol{x}_{\boldsymbol{i}}} 

\sum_{i=1}^N{\alpha _iy_i}=0 

将以上两个等式带入拉格朗日目标函数，消去  \boldsymbol{w} 和  b  ， 得

 L\left( \boldsymbol{w,}b,\boldsymbol{\alpha } \right) =\frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{\alpha _i\alpha _jy_iy_j\left( \boldsymbol{x}_{\boldsymbol{i}}\cdot \boldsymbol{x}_{\boldsymbol{j}} \right)}}-\sum_{i=1}^N{\alpha _iy_i\left( \left( \sum_{j=1}^N{\alpha _jy_j\boldsymbol{x}_{\boldsymbol{j}}} \right) \cdot \boldsymbol{x}_{\boldsymbol{i}}+b \right) +}\sum_{i=1}^N{\alpha _i} 

\ \ \ \ \ \ \ \ \ \ \ =-\frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{\alpha _i\alpha _jy_iy_j\left( \boldsymbol{x}_{\boldsymbol{i}}\cdot \boldsymbol{x}_{\boldsymbol{j}} \right)}}+\sum_{i=1}^N{\alpha _i} 

即
\underset{\boldsymbol{w,}b}{\min}\ L\left( \boldsymbol{w,}b,\boldsymbol{\alpha } \right) =-\frac{1}{2}\sum_{i=1}^N{\sum_{j=1}^N{\alpha _i\al

支持向量机原理

4. 支持向量机的基本思想是什么？

将数据进行分类是机器学习中的一项常见任务。 假设某些给定的数据点各自属于两个类之一，而目标是确定新数据点将在哪个类中。对于支持向量机来说，数据点被视为P维向量，而我们想知道是否可以用(p-1)维超平面来分开这些点。这就是所谓的线性分类器。
可能有许多超平面可以把数据分类。最佳超平面的一个合理选择是以最大间隔把两个类分开的超平面。因此，要选择能够让到每边最近的数据点的距离最大化的超平面。如果存在这样的超平面，则称为最大间隔超平面，而其定义的线性分类器被称为最大间隔分类器，或者叫做最佳稳定性感知器。
除了进行线性分类之外，SVM还可以使用所谓的核技巧有效地进行非线性分类，将其输入隐式映射到高维特征空间中。
当数据未被标记时，不能进行监督式学习，需要用非监督式学习，它会尝试找出数据到簇的自然聚类，并将新数据映射到这些已形成的簇。将支持向量机改进的聚类算法被称为支持向量聚类，当数据未被标记或者仅一些数据被标记时，支持向量聚类经常在工业应用中用作分类步骤的预处理。

应用
1、用于文本和超文本的分类，在归纳和直推方法中都可以显著减少所需要的有类标的样本数。
2、用于图像分类。实验结果显示：在经过三到四轮相关反馈之后，比起传统的查询优化方案，支持向量机能够获取明显更高的搜索准确度。这同样也适用于图像分割系统，比如使用Vapnik所建议的使用特权方法的修改版本SVM的那些图像分割系统。
3、用于手写字体识别。
4、用于医学中分类蛋白质，超过90%的化合物能够被正确分类。基于支持向量机权重的置换测试已被建议作为一种机制，用于解释的支持向量机模型。支持向量机权重也被用来解释过去的SVM模型。
为识别模型用于进行预测的特征而对支持向量机模型做出事后解释是在生物科学中具有特殊意义的相对较新的研究领域。

5. 支持向量机原理讲解（一）

 支持向量机(Support Vector Machine,以下简称SVM)，作为传统机器学习的一个非常重要的分类算法，它是一种通用的前馈网络类型，最早是由Vladimir N.Vapnik 和 Alexey Ya.Chervonenkis在1963年提出，目前的版本（soft margin）是Corinna Cortes 和 Vapnik在1993年提出，1995年发表。深度学习（2012）出现之前，如果不考虑集成学习的算法，不考虑特定的训练数据集，在分类算法中的表现SVM说是排第一估计是没有什么异议的。
   SVM本来是一种线性分类和非线性分类都支持的二元分类算法，但经过演变，现在也支持多分类问题，也能应用到了回归问题。本篇文章重点讲解线性支持向量机的模型原理和目标函数优化原理。
                                           在讲解SVM模型之前，我们可以先简单了解感知机模型的原理，因为这两个模型有一些相同的地方。在二维平面中，感知机模型是去找到一条直线，尽可能地将两个不同类别的样本点分开。同理，在三维甚至更高维空间中，就是要去找到一个超平面。定义这个超平面为wTx+b=0（在二维平面中，就相当于直线w_1 x+w_1 y+b=0），而在超平面上方的点，定义为y=1，在超平面下方的点，定义为y=-1。而这样的超平面可能是不唯一的，那么感知机是怎么定期最优超平面呢？从感知机模型的目标函数中，我们了解到它是希望让所有误分类的点(定义为M)到超平面的距离和最小。其目标函数如下：
     
   (注：加入  是因为点若在超平面下，  为负数，需要乘上对应的  )
   当w和b成比例增加了之后，比如都扩大N倍，会发现，分子和分母都会同时扩大N倍，这对目标函数并不影响。因此，当我们将W扩大或缩小一定倍数使得，||w||=1，分子也会相应的扩大或缩小，这样，目标函数就能简化成以下形式：
     
   这个思想将会应用到支持向量机的目标函数优化上，后文将会详细讲解。
   正如上文所说，线性支持向量机的思想跟感知机的思想很相似。其思想也是对给定的训练样本，找到一个超平面去尽可能的分隔更多正反例。不同的是其选择最优的超平面是基于正反例离这个超平面尽可能远。
                                           从上图可以发现，其实只要我们能保证距离超平面最近的那些点离超平面尽可能远，就能保证所有的正反例离这个超平面尽可能的远。因此，我们定义这些距离超平面最近的点为支持向量（如上图中虚线所穿过的点）。并且定义正负支持向量的距离为Margin。
   对SVM思想有一定理解之后，设超平面为  。我们讲解一下函数间隔和几何间隔的区别。
   给定一个样本  ，  表示点x到超平面的距离。通过观察  和  是否同号，我们判断分类是否正确。所以函数间隔定义  为：
     
   而函数间隔不能正常反应点到超平面的距离，因为当我们等比例扩大  和  的时候，函数间隔也会扩大相应的倍数。因此，我们引入几何间隔。
   几何间隔就是在函数间隔的基础下，在分母上对  加上约束（这个约束有点像归一化），定义为  ：
        其实参考点到直线的距离，我们可以发现几何间隔就是高维空间中点到超平面的距离，才能真正反映点到超平面的距离。
   根据SVM的思想，我们可以知道是要取最大化支持向量到超平面的几何间隔，所以目标函数可以表示为：
     
   在感知机模型最后，我们知道当同时扩大w和b，分子分母都会同样扩大，对目标函数不影响，所以在这里我们将分子(支持向量到超平面的函数间隔)扩大或压缩等于1，则目标函数可以转化为：
     
   但是上式并不是凸函数，不好求解，再进一步转化为：
     
   上式就是一个凸函数，并且不等式约束为仿射函数，因此可以使用拉格朗日对偶去求解该问题。
   根据拉格朗日乘子法，引入拉格朗日乘子α，且α≥0我们可以知道，先不考虑min，(2)问题等价于：
     
   然后再考虑min，则有：
     
   应用拉格朗日对偶性，通过求解对偶问题得到最优解，则对偶问题的目标函数为：
     
   这就是线性可分条件下支持向量机的对偶算法。这样做的优点在于：一是原问题的对偶问题往往更容易求解，二者可以自然的引入核函数，进而推广到非线性分类问题。
   从(4)中，我们可以先求目标函数对于  和  的极小值，再求拉格朗日乘子  的极大值。
   首先，分别对  和  分别求偏导数，并令为0：
        得：     
     
   将(5)和(6)代入(4)得到：
     
   对(7)取反得到：
     
   只要我们可以求出(8)中极小化的  向量，那么我们就可以对应的得到  和  ，而求解  需要使用SMO算法，由于该算法比较复杂，我们将在下一篇文章专门讲解。假设我们现在已经使用SMO算法得到了最优的  值，记为  
     
   再求  ：
   对于任一样本  有：
     
   注意到任一样本都有  ，则将右式的1用  代：
     
   将(9)代入上式，可以得到：
     
   这样，我们就能够求解得到线性支持向量机的目标函数的各个参数，进而得到最优的超平面，将正负样本分隔开。但是在上文中我们没有讲解求  向量的SMO算法，在下篇文章，将会详细讲解SMO算法，欢迎继续关注。

支持向量机原理讲解（一）

6. 什么是支持向量机？

什么是支持向量机？支持向量机基本概念 
SVM算法是一种学习机制，是由Vapnik提出的旨在改善传统神经网络学习方法的理论弱点，最先从最优分类面问题提出了支持向量机网络。SVM学习算法根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中，以期获得最好的泛化能力。SVM在形式上类似于多层前向网络，而且已被应用于模式识别、回归分析、数据挖掘等方面。
支持向量机这些特点是其他学习算法(如人工神经网络)所不及的。对于分类问题，单层前向网络可解决线性分类问题，多层前向网络可解决非线性分类问题。但这些网络仅仅能够解决问题，并不能保证得到的分类器是最优的；而基于统计学习理论的支持向量机方法能够从理论上实现对不同类别间的最优分类，通过寻找最坏的向量，即支持向量，达到最好的泛化能力。
SVM总的来说可以分为线性SVM和非线性SVM两类。线性SVM是以样本间的欧氏距离大小为依据来决定划分的结构的。非线性的SVM中以卷积核函数代替内积后，相当于定义了一种广义的趾离，以这种广义距离作为划分依据。
模糊支持向量机有两种理解:一种是针对多定义样本或漏分样本进行模糊后处理;另一种是在训练过程中引入模糊因子作用。
SVM在量化投资中的应用主要是进行金融时序数列的预测。根据基于支持向量机的时间序列预测模型，先由训练样本对模型进行训练和完备，然后将时间序列数据进行预测并输出预测结果。
本章介绍的第一个案例是一种基于最小二乘法的支持向最机的复杂金融数据时间序列预测方法，大大提高了求解问题的速度和收敛精度。相比于神经网络预测方法，该方法在大批量金融数据时间序列预测的训练时间、训练次数和预测误差上都有了明显提高，对复杂金融时间序列具有较好的预测效果。
第二个案例是利用SVM进行大盘拐点判断，由于使用单一技术指标对股价反转点进行预测存在较大的误差，所以使用多个技术指标组合进行相互验证就显得特别必要。SVM由于采用了结构风险最小化原则，能够较好地解决小样本非线性和高维数问题，因此通过构造一个包含多个技术指标组合的反转点判断向最，并使用SVM对技术指标组合向量进行数据挖掘，可以得到更加准确的股价反转点预测模型。
 
支持向量机基本概念
SVM算法是一种学习机制，是由Vapnik提出的旨在改善传统神经网络学习方法的理论弱点，最先从最优分类面问题提出了支持向量机网络。
SVM学习算法根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中，以期获得最好的泛化能力。SVM在形式上类似于多层前向网络，而且己被应用于模式识别、回归分析、数据挖掘等方面。支持向量机方法能够克服多层前向网络的固有缺陷，它有以下几个优点：
(1)它是针对有限样本情况的。根据结构风险最小化原则，尽量提高学习机的泛化能力，即由有限的训练样本得到小的误差，能够保证对独立的测试集仍保持小的误差，其目标是得到现有信息下的最优解，而不仅仅是样本数趋于无穷大时的最优值。
(2)算法最终将转化成一个二次型寻优问题，从理论上说，得到的将是全局最优点。
(3)算法将实际问题通过非线性变换转换到高维的特征空间，在高维空间中构造线性判别函数来实现原空间中的非线性判别函数，这一特殊的性质能保证机器有较好的泛化能力，同时它巧妙地解决了维数灾难问题，使得其算法复杂度与样本维数无关。

7. 支持向量机的支持向量概述

所谓支持向量是指那些在间隔区边缘的训练样本点。 这里的“机（machine，机器）”实际上是一个算法。在机器学习领域，常把一些算法看做是一个机器。支持向量机(Support vector machines，SVM)与神经网络类似，都是学习型的机制，但与神经网络不同的是SVM使用的是数学方法和优化技术。

支持向量机的支持向量概述

8. 支持向量机的简介

支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折中，以求获得最好的推广能力 。