当前位置:首页 » 城管服务 » 有监督聚类

有监督聚类

发布时间: 2021-01-22 08:08:41

⑴ 非监督模式识别的经典方法是聚类,聚类的三个要点是什么

第一,聚类分析是一种无监督学习的方法。
第二,聚类的对象是没有分类标记的训练样本。
第三,聚类的目的是将数据集划分为若干个互不相交的子集。

⑵ 非监督学习对样本进行聚类的常见方法有哪几种

有简单聚类方法、层次聚类法以及动态聚类法

⑶ 无监督学习比如简单的聚类分析真的是“学习”吗

聚类通过把目标数据放入少数相对同源的组或“类”(cluster)里。分析表达数据,(1)通过一系列的检测将待测的一组基因的变异标准化,然后成对比较线性协方差。(2)通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚类(hierarchicalclustering)方法。这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类。(3)多维等级分析(,MDS)是一种在二维Euclidean“距离”中显示实验样本相关的大约程度。(4)K-means方法聚类,通过重复再分配类成员来使“类”内分散度最小化的方法。聚类方法有两个显著的局限:首先,要聚类结果要明确就需分离度很好(well-separated)的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是,如果类是扩散且互相渗透,那么每种算法的的结果将有点不同。结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果,必须注意判断不同的方式。对遗传学家来说,正确解释来自任一算法的聚类内容的实际结果是困难的(特别是边界)。最终,将需要经验可信度通过序列比较来指导聚类解释。第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较,大大减少发现表达类型关系的计算量,但忽视了生物系统多因素和非线性的特点。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言,聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他数据挖掘任务(如分类、关联规则)的预处理步骤。数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法。这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。1划分方法(PAM:PArtitioningmethod)首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括:k-means,k-medoids,CLARA(ClusteringLARgeApplication),CLARANS().FCM2层次方法(hierarchicalmethod)创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的这类方法包括:第一个是;BIRCH()方法,它首先利用树的结构对对象集进行划分;然后再利用其它聚类方法对这些聚类进行优化。第二个是CURE()方法,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定量(向聚类中心)进行收缩。第三个是ROCK方法,它利用聚类间的连接进行聚类合并。最后一个CHEMALOEN,它则是在层次聚类时构造动态模型。3基于密度方法,根据密度完成对象的聚类。它根据对象周围的密度(如DBSCAN)不断增长聚类。典型的基于密度方法包括:DBSCAN(Densit-):该算法通过不断生长足够高密度区域来进行聚类;它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。OPTICS():并不明确产生一个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。。4基于网格方法,首先将对象空间划分为有限个单元以构成网格结构;然后利用网格结构完成聚类。STING(STatisticalINformationGrid)就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。CLIQUE(ClusteringInQUEst)和Wave-Cluster则是一个将基于网格与基于密度相结合的方法。5基于模型方法,它假设每个聚类的模型并发现适合相应模型的数据。典型的基于模型方法包括:统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量(属性-值)对来加以描述的。采用分类树的形式来创建一个层次聚类。CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚类。它为每个结点中的每个属性保存相应的连续正态分布(均值与方差);并利用一个改进的分类能力描述方法,即不象COBWEB那样计算离散属性(取值)和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。因此它们都不适合对大数据库进行聚类处理.

⑷ 监督分类

监督分类一般是先在图像中选取已知样本 ( 训练区) 的统计数据,从中找出分类的参数、条件,建立判别函数,然后对整个图像或待分类像元作出判别归类。遥感图像处理中常用的监督分类方法有最小距离法、贝叶斯线性和非线性判别法 ( 最大似然法) 、多级分割法 ( 平行六面体法) 、特征曲线法 ( 光谱角法) 、马氏距离法、费歇尔线性判别法等。

1. 最小距离法

最小距离法的基本原理是根据已知类别或训练样本的模式特征选择特征参数并建立判别函数,通过待分类像元与各类别均值向量的距离比较而将其划分至与之距离最小的类别之中。为保证分类精度,需要对特征空间进行正交变换 ( 如 K-L 变换等) 。首先在图像显示屏上选出训练样区,并且从图像数据中求出训练样区各个波段的均值和标准差; 而后再去计算其他各像元的亮度值向量到训练区波谱均值向量之间的距离。该方法依据的分类指标为绝对值距离或欧氏距离,其中欧氏距离最为常用。如果距离小于指定的阈值 ( 一般取标准差的倍数) ,且与某一类的距离最近,遂将该像元归为某类。该分类法的精度取决于训练样区 ( 地物类别) 的多少和样本区的统计精度。由于计算简便,并可按像元顺序逐一扫描归类,一般分类效果也较好,因而是较常用的监督分类方法。

图 4-23 ISODATA 方法框图

2. 贝叶斯线性和非线性判别法 ( 最大似然法)

该方法假定各类别总体的概率密度分布均为正态分布,通过待分类像元与各类别的似然率比较而将其划分至与之似然率最大的类别之中。其分类指标为似然率 ( 条件概率) 。它是用贝叶斯判别原则进行分析的一种非线性监督分类。简单地说,它可以假定已知的或确定的训练样区典型标准的先验概率,然后把某些特征归纳到某些类型的函数中,根据损失函数的情况,在损失最小时获得最佳判别。该法分类效果较好,但运算量较大。

3. 多级分割法 ( 平行六面体法)

多级分割法的基本原理是在特征空间中每个特征变量轴上设置一系列的分割点 ( 依据训练数据的统计特征进行分割点的确定) ,将多维特征空间划分为互不重叠的子空间,每个子空间对应于一个分类类别,将分类像元归属于与其所在子空间相对应的类别。为提高分类精度,需要对特征空间进行正交变换 ( 如 K-L 变换等) 。

4. 特征曲线法 ( 光谱角法)

特征曲线法的基本原理是以地物的特征参数曲线 ( 如地物波谱特性曲线) 之间的相似系数 ( 变量空间中样品点向量之间的夹角余弦) 作为分类判别指标。

5. 马氏距离法

马氏距离法充分考虑了多维变量空间中反映样本点随机概率密度分布特征的协方差矩阵,当各变量正交时其相当于加权的欧氏距离,故该方法相对于最小距离法等方法而言一般具有较好的分类识别效果。

监督分类的结果明确,分类精度相对较高,但对训练样本的要求较高,因此,使用时须注意应用条件,某一地区建立的判别式对别的地区不一定完全适用。此外,有时训练区并不能完全包括所有的波谱样式,会造成一部分像元找不到归属。故实际工作中,监督分类和非监督分类常常是配合使用,互相补充的,使分类的效率和精度进一步提高。

基于最大似然原理的监督法分类的优势在于如果空间聚类呈现正态分布,那么它会减小分类误差,而且分类速度较快。监督法分类主要缺陷是必须在分类前圈定样本性质单一的训练样区,而这可以通过非监督法来进行,即通过非监督法将一定区域聚类成不同的单一类别,监督法再利用这些单一类别区域 “训练”计算机。通过 “训练”后的计算机将其他区域分类完成,这样避免了使用速度比较慢的非监督法对整个影像区域进行分类,在分类精度得到保证的前提下,分类速度得到了提高。具体可按以下步骤进行。

第一步,选择一些有代表性的区域进行非监督分类。这些区域尽可能包括所有感兴趣的地物类别。这些区域的选择与监督法分类训练样区的选择要求相反,监督法分类训练样区要求尽可能单一。而这里选择的区域包含类别尽可能得多,以便使所有感兴趣的地物类别都能得到聚类。

第二步,获得多个聚类类别的先验知识。这些先验知识的获取可以通过判读和实地调查得到。聚类的类别作为监督分类的训练样区。

第三步,特征选择。选择最适合的特征图像进行后续分类。

第四步,使用监督法对整个影像进行分类。根据前几步获得的先验知识以及聚类后的样本数据设计分类器,并对整个影像区域进行分类。

第五步,输出标记图像。由于分类结束后影像的类别信息也已确定,所以可以将整幅影像标记为相应类别输出。

图像分类处理目前在农林、土地资源遥感调查中应用较广。对于地质体的分类,由于干扰因素较大,一般要经变换 ( 比值变换、K-L 变换等) 处理的图像再作分类处理,现常用于岩性填图或热液蚀变填图等,随着计算机软硬件技术的日益成熟,图像的计算机分类将应用得越来越普遍。

复习思考题

1. 数字图像的基本概念是什么?

2. 数字图像的存储格式有哪几类?

3. 遥感单波段和多波段数据基本统计量有哪些?

4. 什么是辐射误差? 其主要来源有哪些?

5. 什么是大气校正? 试说明回归分析和直方图校正的原理。

6. 简述利用重采样法进行几何精校正的过程。

7. 什么是投影变换、图像镶嵌和图像分幅?

8. 什么是线性扩展和非线性扩展? 常用非线性增强方法有哪几种?

9. 什么是多波段假彩色合成?

10. 比值、差值增强的基本功能是什么?

11. 滤波增强的主要目的是什么? 常用的方法有哪些?

12. K - L 变换和 K-T 变换的主要作用是什么?

13. 什么是非监督分类? 本章介绍了哪几种方法?

14. 什么是监督分类? 有哪几种方法?

15. 简述监督分类与非监督分类的区别,各有何优点和适用条件。

⑸ 什么是聚类分析和分类分析两者有何不同之处

聚类分析是无监督的,不需要训练学习。分类是有监督的,需要先对分类器进行训练和学习才能进行分类

⑹ 哪位大侠有关于“双边聚类”和“半监督聚类”的资料啊急用!

系统生物学的理论、方法和应用
这本书还不错

⑺ 无监督聚类问题中,如何决定簇的最优数量

<pre t="code" l="python"># -*- coding: utf-8 -*-
from sklearn.cluster import KMeans
from sklearn.externals import joblib
import numpy

final = open('c:/test/final.dat' , 'r')

data = [line.strip().split('\t') for line in final]
feature = [[float(x) for x in row[3:]] for row in data]

#调用kmeans类
clf = KMeans(n_clusters=9)
s = clf.fit(feature)
print s

#9个中心
print clf.cluster_centers_

#每个样本所属的簇
print clf.labels_

#用来评估簇的个数是否合适,距离越小说明簇分的越好,选取临界点的簇个数
print clf.inertia_

#进行预测
print clf.predict(feature)

#保存模型
joblib.mp(clf , 'c:/km.pkl')

#载入保存的模型
clf = joblib.load('c:/km.pkl')

'''
#用来评估簇的个数是否合适,距离越小说明簇分的越好,选取临界点的簇个数
for i in range(5,30,1):
clf = KMeans(n_clusters=i)
s = clf.fit(feature)
print i , clf.inertia_
'''

⑻ 监督分类和非监督分类的研究现状

非监督分类是指人们事先对分类过程不施加任何的先验知识,而仅凭数据(遥感影像地物的光谱特征的分布规律),即自然聚类的特性,进行“盲目”的分类;其分类的结果只是对不同类别达到了区分,但并不能确定类别的属性,亦即:非监督分类只能把样本区分为若干类别,而不能给出样本的描述;其类别的属性是通过分类结束后目视判读或实地调查确定的。非监督分类也称聚类分析。一般的聚类算法是先选择若干个模式点作为聚类的中心。每一中心代表一个类别,按照某种相似性度量方法(如最小距离方法)将各模式归于各聚类中心所代表的类别,形成初始分类。然后由聚类准则判断初始分类是否合理,如果不合理就修改分类,如此反复迭代运算,直到合理为止。与监督法的先学习后分类不同,非监督法是边学习边分类,通过学习找到相同的类别,然后将该类与其它类区分开,但是非监督法与监督法都是以图像的灰度为基础。通过统计计算一些特征参数,如均值,协方差等进行分类的。所以也有一些共性。

⑼ 为什么说聚类分析是一种无监督的学习方法

聚类分析:对样品或指标进行分类的一种分析方法,依据样本和指标已知特性进行分类。本节主要介绍层次聚类分析,一共包括3个部分,每个部分包括一个具体实战例子。

1、常规聚类过程:

一、首先用dist()函数计算变量间距离
dist.r = dist(data, method=" ")
其中method包括6种方法,表示不同的距离测度:"euclidean", "maximum", "manhattan", "canberra", "binary" or "minkowski"。相应的意义自行查找。

二、再用hclust()进行聚类
hc.r = hclust(dist.r, method = “ ”)
其中method包括7种方法,表示聚类的方法:"ward", "single", "complete","average", "mcquitty", "median" or "centroid"。相应的意义自行查找。

三、画图
plot(hc.r, hang = -1,labels=NULL) 或者plot(hc.r, hang = 0.1,labels=F)
hang 等于数值,表示标签与末端树杈之间的距离,
若是负数,则表示末端树杈长度是0,即标签对齐。
labels 表示标签,默认是NULL,表示变量原有名称。labels=F :表示不显示标签。

⑽ 什么是监督分类和非监督分类

监督分类又称训练场地法、训练分类法,是以建立统计识别函数为理论基础、依据典型样本训练方法进行分类的技术,即根据已知训练区提供的样本,通过选择特征参数,求出特征参数作为决策规则,建立判别函数以对各待分类影像进行的图像分类。

非监督分类是以不同影像地物在特征空间中类别特征的差别为依据的一种无先验类别标准的图像分类,是以集群为理论基础,通过计算机对图像进行集聚统计分析的方法。根据待分类样本特征参数的统计特征,建立决策规则来进行分类。

(10)有监督聚类扩展阅读

监督分类的主要优点如下:

(1)可根据应用目的和区域,充分利用先验知识,有选择地决定分类类别,避免出现不必要的类别;

(2)可控制训练样本的选择;

(3)可通过反复检验训练样本,来提高分类精度,避免分类严重错误;

(4)避免了非监督分类中对光谱集群组的重新归类。

缺点如下:

(1)其分类系统的确定、训练样本的选择,均人为主观因素较强,分析者定义的类别有可能并不是图像中存在的自然类别,导致各类别间可能出现重叠;分析者所选择的训练样本也可能并不代表图像中的真实情形;

(2)由于图像中同一类别的光谱差异,造成训练样本没有很好的代表性;

(3)训练样本的选取和评估需花费较多的人力、时间;

(4)只能识别训练样本中所定义的类别,若某类别由于训练者不知道或者其数量太少未被定义,则监督分类不能识别。

热点内容
影视转载限制分钟 发布:2024-08-19 09:13:14 浏览:319
韩国电影伤口上纹身找心里辅导 发布:2024-08-19 09:07:27 浏览:156
韩国电影集合3小时 发布:2024-08-19 08:36:11 浏览:783
有母乳场景的电影 发布:2024-08-19 08:32:55 浏览:451
我准备再看一场电影英语 发布:2024-08-19 08:14:08 浏览:996
奥迪a8电影叫什么三个女救人 发布:2024-08-19 07:56:14 浏览:513
邱淑芬风月片全部 发布:2024-08-19 07:53:22 浏览:341
善良妈妈的朋友李采潭 发布:2024-08-19 07:33:09 浏览:760
哪里还可以看查理九世 发布:2024-08-19 07:29:07 浏览:143
看电影需要多少帧数 发布:2024-08-19 07:23:14 浏览:121