半监督模型

发布时间: 2021-02-01 11:23:01

❶ 适合于多分类的半监督学习算法有哪些

朴素贝叶斯(Naive Bayes, NB)
超级简单，就像做一些数数的工作。如果条件独立假设成立的话，NB将比鉴别模型（如Logistic回归）收敛的更快，所以你只需要少量的训练数据。即使条件独立假设不成立，NB在实际中仍然表现出惊人的好。如果你想做类似半监督学习，或者是既要模型简单又要性能好，NB值得尝试。

Logistic回归(Logistic Regression, LR)
LR有很多方法来对模型正则化。比起NB的条件独立性假设，LR不需要考虑样本是否是相关的。与决策树与支持向量机（SVM）不同，NB有很好的概率解释，且很容易利用新的训练数据来更新模型（使用在线梯度下降法）。如果你想要一些概率信息（如，为了更容易的调整分类阈值，得到分类的不确定性，得到置信区间），或者希望将来有更多数据时能方便的更新改进模型，LR是值得使用的。

决策树（Decision Tree, DT）
DT容易理解与解释（对某些人而言——不确定我是否也在他们其中）。DT是非参数的，所以你不需要担心野点（或离群点）和数据是否线性可分的问题（例如，DT可以轻松的处理这种情况：属于A类的样本的特征x取值往往非常小或者非常大，而属于B类的样本的特征x取值在中间范围）。DT的主要缺点是容易过拟合，这也正是随机森林（Random Forest, RF）（或者Boosted树）等集成学习算法被提出来的原因。此外，RF在很多分类问题中经常表现得最好（我个人相信一般比SVM稍好），且速度快可扩展，也不像SVM那样需要调整大量的参数，所以最近RF是一个非常流行的算法。

支持向量机（Support Vector Machine, SVM）
很高的分类正确率，对过拟合有很好的理论保证，选取合适的核函数，面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。由于较大的内存需求和繁琐的调参，我认为RF已经开始威胁其地位了。

回到LR与DT的问题（我更倾向是LR与RF的问题），做个简单的总结：两种方法都很快且可扩展。在正确率方面，RF比LR更优。但是LR可以在线更新且提供有用的概率信息。鉴于你在Square(不确定推断科学家是什么，应该不是有趣的化身)，可能从事欺诈检测：如果你想快速的调整阈值来改变假阳性率与假阴性率，分类结果中包含概率信息将很有帮助。无论你选择什么算法，如果你的各类样本数量是不均衡的（在欺诈检测中经常发生），你需要重新采样各类数据或者调整你的误差度量方法来使各类更均衡。

❷ 直推学习是什么

直推学习是半监督学习中的一种，指在学习过程中的未标记数据就是带预测的数据。

❸ 半监督学习的起源和发展历程

SSL的研究历史可以追溯到20世纪70年代，这一时期，出现了自训练(Self-Training)、直推学习(Transctive Learning)、生成式模型(Generative Model)等学习方法。
90年代，新的理论的出现，以及自然语言处理、文本分类和计算机视觉中的新应用的发展，促进了SSL的发展，出现了协同训练(Co-Training)和转导支持向量机(Transctive Support Vector Machine，TSVM)等新方法。Merz等人在1992年提出了SSL这个术语，并首次将SSL用于分类问题。接着Shahshahani和Landgrebe展开了对SSL的研究。协同训练方法由Blum和Mitchell提出，基于不同的视图训练出两个不同的学习机，提高了训练样本的置信度。Vapnik和Sterin提出了TSVM，用于估计类标签的线性预测函数。为了求解TSVM，Joachims提出了SVM方法，Bie和Cristianini将TSVM放松为半定规划问题从而进行求解。许多研究学者广泛研究将期望最大算法(Expectation Maximum，EM)与高斯混合模型(Gaussian Mixture Model，GMM)相结合的生成式SSL方法。Blum等人提出了最小割法(Mincut)，首次将图论应用于解决SSL问题。Zhu等人提出的调和函数法(Harmonic Function)将预测函数从离散形式扩展到连续形式。由Belkin等人提出的流形正则化法(Manifold Regularization)将流形学习的思想用于SSL场景。Klein等人提出首个用于聚类的半监督距离度量学习方法，学习一种距离度量。

❹ 高斯过程隐变量模型和高斯过程分类的区别

高斯过程来（GPS）是一种良好自的贝叶斯分类方法和回归过程，也可应用于半监督聚类方面，就此提出了一个新的算法：使用稀疏高斯过程回归模型来解决半监督二元分类问题，它是基于支持向量回归（SVR）和最大空间聚类（MMC）的半监督分类方法，此算法简...

❺ 适合于多分类的半监督学习算法有哪些

maxsoft作为logistics二分类的改进版，天生适合多分类；神经网络(如bp神经网络，随机权神经网络，RBF神经网络等)；通过建立多个支持向量机或者最小二乘支持向量机分类模型，通过投票算法选择概率最大的分类标签；也可以通过聚类算法(KNN，kMeans等)等无监督学习算法实现分类。或许不太完善，欢迎补充。(机器学习算法与Python学习)

❻ 有监督学习和无监督学习的区别

机器学习任务根据训练样本是否有label，可以分为监督学习和无监督学习
监督学习的训练样本有label，主要是学习得到一个特征空间到label的映射，如分类、回归等
无监督学习的训练样本没有label，主要是发现样本的内部结构，如聚类、降维、可视化等

❼ 机器学习有哪些学习方法

在继续学，我感觉有一些特定的方式来完成你的思想思维以及思想作为。

❽ 半监督学习的半监督学习的分类

SSL按照统计学习理论的角度包括直推(Transctive)SSL和归纳(Inctive)SSL两类模式。直推SSL只处理样本空间内给定的训练数据，利用训练数据中有类标签的样本和无类标签的样例进行训练，预测训练数据中无类标签的样例的类标签；归纳SSL处理整个样本空间中所有给定和未知的样例，同时利用训练数据中有类标签的样本和无类标签的样例，以及未知的测试样例一起进行训练，不仅预测训练数据中无类标签的样例的类标签，更主要的是预测未知的测试样例的类标签。
从不同的学习场景看，SSL可分为四大类：
1)半监督分类(Semi-Supervised Classification)：在无类标签的样例的帮助下训练有类标签的样本，获得比只用有类标签的样本训练得到的分类器性能更优的分类器，弥补有类标签的样本不足的缺点，其中类标签取有限离散值；
具体的有：
自训练(Self-Training)、直推学习(Transctive Learning)、生成式模型(Generative Model)、基于差异的方法(Disagreement-Based Methods)、生成式方法(Generative Methods)、判别式方法(DiscriminativeMethods)和基于图的方法(Graph-Based Methods)等，
2)半监督回归(Semi-Supervised Regression)：在无输出的输入的帮助下训练有输出的输入，获得比只用有输出的输入训练得到的回归器性能更好的回归器，其中输出取连续值；
具体的主要的半监督回归方法有基于差异的方法和基于流形学习的方法。
3)半监督聚类(Semi-Supervised Clustering）：在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇，提高聚类方法的精度；
主要的半监督聚类方法有基于距离的方法和大间隔方法。
4)半监督降维(Semi-Supervised Dimensionality Rection)：在有类标签的样本的信息帮助下找到高维输入数据的低维结构，同时保持原始高维数据和成对约束(Pair-Wise Constraints)的结构不变，即在高维空间中满足正约束(Must-Link Constraints)的样例在低维空间中相距很近，在高维空间中满足负约束(Cannot-Link Constraints)的样例在低维空间中距离很远。
主要的半监督降维方法有基于类标签的方法、基于成对约束的方法及其它方法等。无噪声干扰的样本数据是当前大部分半监督学习方法使用的数据，而在实际生活中用到的数据却大部分不是无干扰的，通常都比较难以得到纯样本数据。上面谈论的三个基本假设显然是有效的，不过过于简约，这些假设没能把噪声干扰下未标记样本数据分布的不确定性以及它的复杂性充分的考虑全。

阅读全文

热点内容

影视转载限制分钟发布：2024-08-19 09:13:14 浏览：319

韩国电影伤口上纹身找心里辅导发布：2024-08-19 09:07:27 浏览：156

韩国电影集合3小时发布：2024-08-19 08:36:11 浏览：783

有母乳场景的电影发布：2024-08-19 08:32:55 浏览：451

我准备再看一场电影英语发布：2024-08-19 08:14:08 浏览：996

奥迪a8电影叫什么三个女救人发布：2024-08-19 07:56:14 浏览：513

邱淑芬风月片全部发布：2024-08-19 07:53:22 浏览：341

善良妈妈的朋友李采潭发布：2024-08-19 07:33:09 浏览：760

哪里还可以看查理九世发布：2024-08-19 07:29:07 浏览：143

看电影需要多少帧数发布：2024-08-19 07:23:14 浏览：121

半监督模型

与半监督模型相关的资讯