半监督算法
㈠ 支持向量机算法是基于监督的还是基于半监督的
分类作为数据挖掘领域中一项非常重要的任务,它的目的是学会一个分类函数或分类模型(或者叫做分类器),而支持向量机本身便是一种监督式学习的方法。
引自CSDN:网页链接
㈡ 急求最近邻算法的半监督学习算法对vehicle数据分类的matlab程序
嗯嗯嗯
㈢ 谱聚类算法的算法的新进展
Zha和Dhillon等人研究了基于二分图G=<X, Y, W>上的谱聚类,发现最小化目标函数可以等同于与二分图相关联的边权重矩阵的奇异值分解。
Meila和Shi将相似性解释为Markov链中的随机游动,分析了这种随机游动的概率转移矩阵P=DW的特征向量(W为相似度矩阵),并且利用随机游动对Ncut进行了概率的解释,提出了基于随机游动的新的算法。同时,在这个解释框架下提出了多个特征相似矩阵组合下的谱聚类方法,在图像分割中取得了很不错的效果。
Cu等人分析了核k-means的方法,发现最小化核k-means的目标函数等同于一个由数据向量组成的Gram矩阵的迹最大化问题。同时,迹最大化问题的松散解可以通过Gram矩阵的部分特征分解获得,首次用谱松散的方法获得核k-means的目标函数的全局最优解。Dhillon[29]在此基础上,又研究了加权核k-means的目标函数,将其与Ncut目标函数建立联系,提出了一个可以单调递减Ncut值的新颖的加权核k-means算法。
Ncut是一个很好的聚类目标函数。它的求解是一个NP难问题。传统的方法是宽松的谱松散方法。Xing与Jordan[分析了对Ncut的半正定规划(SDP)模型。根据该模型,对Ncut提出了一个比谱松散更紧的下限。同时指出了Ncut本身不能得到最优的聚类,但它可以通过不同的松散方法获得合理的聚类。
谱聚类方法不仅用于无监督学习中,也用于有约束的半监督学习中。Kamvar等人将PageRank[32]的随机游动模型运用到相似度矩阵中,根据已知样本的类别修正相似度矩阵。然后根据谱聚类算法获得聚类结果。Bach与Jordan则是根据一个基于已知划分与Ncut谱松散结果的误差,提出了新的目标函数,通过最小化新的目标函数推出新的谱聚类算法。
王玲,薄列峰,焦李成认为在聚类搜索过程中充分利用先验信息会显著提高聚类算法的性能,并分析了在聚类过程中仅利用成对限制信息存在的不足,提出利用数据集本身固有空间一致性先验信息的具体方法。在经典的谱聚类算法中同时引入两类先验信息的基础上提出一种密度敏感的半监督谱聚类算法,两类先验信息在指导聚类搜索的过程中能够起到相辅相成的作用,使得算法相对于仅利用成对限制信息的聚类算法在聚类性能上有了显著的提高。
王娜,李霞提出了一种基于监督信息特性的主动学习策略,找出同一类中距离相对较远的数据对象对和不同类中距离相对较近的数据对象对组成监督信息并将其引入谱聚类算法,构建新颖的主动半监督谱聚类算法,结果优于采用随机选取监督信息的谱聚类性能。
㈣ 如何将监督学习算法应用到无监督学习上
这时有人可能会想,难道有监督学习和无监督学习就是非黑即白的关系吗?有没有灰呢?Good idea。灰是存在的。二者的中间带就是半监督学习(semi-supervised learning)。对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常极大于有标签数据数量(这也是符合现实情况的)。隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果
㈤ 如何理解半监督的朴素贝叶斯分类算法
为了测试评估贝叶斯分类器的性能,用不同数据集进行对比实验是必不可少的. 现有的回贝叶斯网络实验软件包答都是针对特定目的设计的,不能满足不同研究的需要. 介绍了用Matlab在BNT软件包基础上建构的贝叶斯分类器实验平台MBNC,阐述了MBNC的系统结构和主要功能,以及在MBNC上建立的朴素贝叶斯分类器NBC,基于互信息和条件互信息测度的树扩展的贝叶斯分类器TANC,基于K2算法和GS算法的贝叶斯网络分类器BNC. 用来自UCI的标准数据集对MBNC进行测试,实验结果表明基于MBNC所建构的贝叶斯分类器的性能优于国外同类工作的结果,编程量大大小于使用同类的实验软件包,所建立的MBNC实验平台工作正确、有效、稳定. 在MBNC上已经进行贝叶斯分类器的优化和改进实验,以及处理缺失数据等研究工作
㈥ 适合于多分类的半监督学习算法有哪些
朴素贝叶斯(Naive Bayes, NB)
超级简单,就像做一些数数的工作。如果条件独立假设成立的话,NB将比鉴别模型(如Logistic回归)收敛的更快,所以你只需要少量的训练数据。即使条件独立假设不成立,NB在实际中仍然表现出惊人的好。如果你想做类似半监督学习,或者是既要模型简单又要性能好,NB值得尝试。
Logistic回归(Logistic Regression, LR)
LR有很多方法来对模型正则化。比起NB的条件独立性假设,LR不需要考虑样本是否是相关的。与决策树与支持向量机(SVM)不同,NB有很好的概率解释,且很容易利用新的训练数据来更新模型(使用在线梯度下降法)。如果你想要一些概率信息(如,为了更容易的调整分类阈值,得到分类的不确定性,得到置信区间),或者希望将来有更多数据时能方便的更新改进模型,LR是值得使用的。
决策树(Decision Tree, DT)
DT容易理解与解释(对某些人而言——不确定我是否也在他们其中)。DT是非参数的,所以你不需要担心野点(或离群点)和数据是否线性可分的问题(例如,DT可以轻松的处理这种情况:属于A类的样本的特征x取值往往非常小或者非常大,而属于B类的样本的特征x取值在中间范围)。DT的主要缺点是容易过拟合,这也正是随机森林(Random Forest, RF)(或者Boosted树)等集成学习算法被提出来的原因。此外,RF在很多分类问题中经常表现得最好(我个人相信一般比SVM稍好),且速度快可扩展,也不像SVM那样需要调整大量的参数,所以最近RF是一个非常流行的算法。
支持向量机(Support Vector Machine, SVM)
很高的分类正确率,对过拟合有很好的理论保证,选取合适的核函数,面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。由于较大的内存需求和繁琐的调参,我认为RF已经开始威胁其地位了。
回到LR与DT的问题(我更倾向是LR与RF的问题),做个简单的总结:两种方法都很快且可扩展。在正确率方面,RF比LR更优。但是LR可以在线更新且提供有用的概率信息。鉴于你在Square(不确定推断科学家是什么,应该不是有趣的化身),可能从事欺诈检测:如果你想快速的调整阈值来改变假阳性率与假阴性率,分类结果中包含概率信息将很有帮助。无论你选择什么算法,如果你的各类样本数量是不均衡的(在欺诈检测中经常发生),你需要重新采样各类数据或者调整你的误差度量方法来使各类更均衡。
㈦ 算法有哪些分类
(一)基本算法 : 1.枚举 2.搜索: 深度优先搜索 广度优先搜索 启发式搜索 遗传算法 (二)数据结构的算法 (三)数论与代数算法 (四)计算几何的算法:求凸包 (五)图论 算法: 1.哈夫曼编码 2.树的遍历 3.最短路径 算法 4.最小生成树 算法 5.最小树形图 6.网络流 算法 7.匹配算法 (六)动态规划 (七)其他: 1.数值分析 2.加密算法 3.排序 算法 4.检索算法 5.随机化算法
㈧ 监督学习 非监督学习 半监督学习 包含哪些算法
半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。
㈨ 国内研究半监督学习算法的牛人有哪些
南大周志华
㈩ 求助如何使用libsvm实现半监督支持向量机算法
SVM有如下主要几个特点:
(1)非线性映射是SVM方法的理论基础,SVM利用内积核函专数代替属向高维空间的非线性映射;
(2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;
(3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。
(4)SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题