當前位置:首頁 » 城管服務 » 有監督聚類

有監督聚類

發布時間: 2021-01-22 08:08:41

⑴ 非監督模式識別的經典方法是聚類,聚類的三個要點是什麼

第一,聚類分析是一種無監督學習的方法。
第二,聚類的對象是沒有分類標記的訓練樣本。
第三,聚類的目的是將數據集劃分為若干個互不相交的子集。

⑵ 非監督學習對樣本進行聚類的常見方法有哪幾種

有簡單聚類方法、層次聚類法以及動態聚類法

⑶ 無監督學習比如簡單的聚類分析真的是「學習」嗎

聚類通過把目標數據放入少數相對同源的組或「類」(cluster)里。分析表達數據,(1)通過一系列的檢測將待測的一組基因的變異標准化,然後成對比較線性協方差。(2)通過把用最緊密關聯的譜來放基因進行樣本聚類,例如用簡單的層級聚類(hierarchicalclustering)方法。這種聚類亦可擴展到每個實驗樣本,利用一組基因總的線性相關進行聚類。(3)多維等級分析(,MDS)是一種在二維Euclidean「距離」中顯示實驗樣本相關的大約程度。(4)K-means方法聚類,通過重復再分配類成員來使「類」內分散度最小化的方法。聚類方法有兩個顯著的局限:首先,要聚類結果要明確就需分離度很好(well-separated)的數據。幾乎所有現存的演算法都是從互相區別的不重疊的類數據中產生同樣的聚類。但是,如果類是擴散且互相滲透,那麼每種演算法的的結果將有點不同。結果,每種演算法界定的邊界不清,每種聚類演算法得到各自的最適結果,每個數據部分將產生單一的信息。為解釋因不同演算法使同樣數據產生不同結果,必須注意判斷不同的方式。對遺傳學家來說,正確解釋來自任一演算法的聚類內容的實際結果是困難的(特別是邊界)。最終,將需要經驗可信度通過序列比較來指導聚類解釋。第二個局限由線性相關產生。上述的所有聚類方法分析的僅是簡單的一對一的關系。因為只是成對的線性比較,大大減少發現表達類型關系的計算量,但忽視了生物系統多因素和非線性的特點。從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。從機器學習的角度講,簇相當於隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習演算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。就數據挖掘功能而言,聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他數據挖掘任務(如分類、關聯規則)的預處理步驟。數據挖掘領域主要研究面向大型資料庫、數據倉庫的高效實用的聚類分析演算法。聚類分析是數據挖掘中的一個很活躍的研究領域,並提出了許多聚類演算法。這些演算法可以被分為劃分方法、層次方法、基於密度方法、基於網格方法和基於模型方法。1劃分方法(PAM:PArtitioningmethod)首先創建k個劃分,k為要創建的劃分個數;然後利用一個循環定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括:k-means,k-medoids,CLARA(ClusteringLARgeApplication),CLARANS().FCM2層次方法(hierarchicalmethod)創建一個層次以分解給定的數據集。該方法可以分為自上而下(分解)和自下而上(合並)兩種操作方式。為彌補分解與合並的不足,層次合並經常要與其它聚類方法相結合,如循環定位。典型的這類方法包括:第一個是;BIRCH()方法,它首先利用樹的結構對對象集進行劃分;然後再利用其它聚類方法對這些聚類進行優化。第二個是CURE()方法,它利用固定數目代表對象來表示相應聚類;然後對各聚類按照指定量(向聚類中心)進行收縮。第三個是ROCK方法,它利用聚類間的連接進行聚類合並。最後一個CHEMALOEN,它則是在層次聚類時構造動態模型。3基於密度方法,根據密度完成對象的聚類。它根據對象周圍的密度(如DBSCAN)不斷增長聚類。典型的基於密度方法包括:DBSCAN(Densit-):該演算法通過不斷生長足夠高密度區域來進行聚類;它能從含有雜訊的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義為一組「密度連接」的點集。OPTICS():並不明確產生一個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。。4基於網格方法,首先將對象空間劃分為有限個單元以構成網格結構;然後利用網格結構完成聚類。STING(STatisticalINformationGrid)就是一個利用網格單元保存的統計信息進行基於網格聚類的方法。CLIQUE(ClusteringInQUEst)和Wave-Cluster則是一個將基於網格與基於密度相結合的方法。5基於模型方法,它假設每個聚類的模型並發現適合相應模型的數據。典型的基於模型方法包括:統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是採用符號量(屬性-值)對來加以描述的。採用分類樹的形式來創建一個層次聚類。CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚類。它為每個結點中的每個屬性保存相應的連續正態分布(均值與方差);並利用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。因此它們都不適合對大資料庫進行聚類處理.

⑷ 監督分類

監督分類一般是先在圖像中選取已知樣本 ( 訓練區) 的統計數據,從中找出分類的參數、條件,建立判別函數,然後對整個圖像或待分類像元作出判別歸類。遙感圖像處理中常用的監督分類方法有最小距離法、貝葉斯線性和非線性判別法 ( 最大似然法) 、多級分割法 ( 平行六面體法) 、特徵曲線法 ( 光譜角法) 、馬氏距離法、費歇爾線性判別法等。

1. 最小距離法

最小距離法的基本原理是根據已知類別或訓練樣本的模式特徵選擇特徵參數並建立判別函數,通過待分類像元與各類別均值向量的距離比較而將其劃分至與之距離最小的類別之中。為保證分類精度,需要對特徵空間進行正交變換 ( 如 K-L 變換等) 。首先在圖像顯示屏上選出訓練樣區,並且從圖像數據中求出訓練樣區各個波段的均值和標准差; 而後再去計算其他各像元的亮度值向量到訓練區波譜均值向量之間的距離。該方法依據的分類指標為絕對值距離或歐氏距離,其中歐氏距離最為常用。如果距離小於指定的閾值 ( 一般取標准差的倍數) ,且與某一類的距離最近,遂將該像元歸為某類。該分類法的精度取決於訓練樣區 ( 地物類別) 的多少和樣本區的統計精度。由於計算簡便,並可按像元順序逐一掃描歸類,一般分類效果也較好,因而是較常用的監督分類方法。

圖 4-23 ISODATA 方法框圖

2. 貝葉斯線性和非線性判別法 ( 最大似然法)

該方法假定各類別總體的概率密度分布均為正態分布,通過待分類像元與各類別的似然率比較而將其劃分至與之似然率最大的類別之中。其分類指標為似然率 ( 條件概率) 。它是用貝葉斯判別原則進行分析的一種非線性監督分類。簡單地說,它可以假定已知的或確定的訓練樣區典型標準的先驗概率,然後把某些特徵歸納到某些類型的函數中,根據損失函數的情況,在損失最小時獲得最佳判別。該法分類效果較好,但運算量較大。

3. 多級分割法 ( 平行六面體法)

多級分割法的基本原理是在特徵空間中每個特徵變數軸上設置一系列的分割點 ( 依據訓練數據的統計特徵進行分割點的確定) ,將多維特徵空間劃分為互不重疊的子空間,每個子空間對應於一個分類類別,將分類像元歸屬於與其所在子空間相對應的類別。為提高分類精度,需要對特徵空間進行正交變換 ( 如 K-L 變換等) 。

4. 特徵曲線法 ( 光譜角法)

特徵曲線法的基本原理是以地物的特徵參數曲線 ( 如地物波譜特性曲線) 之間的相似系數 ( 變數空間中樣品點向量之間的夾角餘弦) 作為分類判別指標。

5. 馬氏距離法

馬氏距離法充分考慮了多維變數空間中反映樣本點隨機概率密度分布特徵的協方差矩陣,當各變數正交時其相當於加權的歐氏距離,故該方法相對於最小距離法等方法而言一般具有較好的分類識別效果。

監督分類的結果明確,分類精度相對較高,但對訓練樣本的要求較高,因此,使用時須注意應用條件,某一地區建立的判別式對別的地區不一定完全適用。此外,有時訓練區並不能完全包括所有的波譜樣式,會造成一部分像元找不到歸屬。故實際工作中,監督分類和非監督分類常常是配合使用,互相補充的,使分類的效率和精度進一步提高。

基於最大似然原理的監督法分類的優勢在於如果空間聚類呈現正態分布,那麼它會減小分類誤差,而且分類速度較快。監督法分類主要缺陷是必須在分類前圈定樣本性質單一的訓練樣區,而這可以通過非監督法來進行,即通過非監督法將一定區域聚類成不同的單一類別,監督法再利用這些單一類別區域 「訓練」計算機。通過 「訓練」後的計算機將其他區域分類完成,這樣避免了使用速度比較慢的非監督法對整個影像區域進行分類,在分類精度得到保證的前提下,分類速度得到了提高。具體可按以下步驟進行。

第一步,選擇一些有代表性的區域進行非監督分類。這些區域盡可能包括所有感興趣的地物類別。這些區域的選擇與監督法分類訓練樣區的選擇要求相反,監督法分類訓練樣區要求盡可能單一。而這里選擇的區域包含類別盡可能得多,以便使所有感興趣的地物類別都能得到聚類。

第二步,獲得多個聚類類別的先驗知識。這些先驗知識的獲取可以通過判讀和實地調查得到。聚類的類別作為監督分類的訓練樣區。

第三步,特徵選擇。選擇最適合的特徵圖像進行後續分類。

第四步,使用監督法對整個影像進行分類。根據前幾步獲得的先驗知識以及聚類後的樣本數據設計分類器,並對整個影像區域進行分類。

第五步,輸出標記圖像。由於分類結束後影像的類別信息也已確定,所以可以將整幅影像標記為相應類別輸出。

圖像分類處理目前在農林、土地資源遙感調查中應用較廣。對於地質體的分類,由於干擾因素較大,一般要經變換 ( 比值變換、K-L 變換等) 處理的圖像再作分類處理,現常用於岩性填圖或熱液蝕變填圖等,隨著計算機軟硬體技術的日益成熟,圖像的計算機分類將應用得越來越普遍。

復習思考題

1. 數字圖像的基本概念是什麼?

2. 數字圖像的存儲格式有哪幾類?

3. 遙感單波段和多波段數據基本統計量有哪些?

4. 什麼是輻射誤差? 其主要來源有哪些?

5. 什麼是大氣校正? 試說明回歸分析和直方圖校正的原理。

6. 簡述利用重采樣法進行幾何精校正的過程。

7. 什麼是投影變換、圖像鑲嵌和圖像分幅?

8. 什麼是線性擴展和非線性擴展? 常用非線性增強方法有哪幾種?

9. 什麼是多波段假彩色合成?

10. 比值、差值增強的基本功能是什麼?

11. 濾波增強的主要目的是什麼? 常用的方法有哪些?

12. K - L 變換和 K-T 變換的主要作用是什麼?

13. 什麼是非監督分類? 本章介紹了哪幾種方法?

14. 什麼是監督分類? 有哪幾種方法?

15. 簡述監督分類與非監督分類的區別,各有何優點和適用條件。

⑸ 什麼是聚類分析和分類分析兩者有何不同之處

聚類分析是無監督的,不需要訓練學習。分類是有監督的,需要先對分類器進行訓練和學習才能進行分類

⑹ 哪位大俠有關於「雙邊聚類」和「半監督聚類」的資料啊急用!

系統生物學的理論、方法和應用
這本書還不錯

⑺ 無監督聚類問題中,如何決定簇的最優數量

<pre t="code" l="python"># -*- coding: utf-8 -*-
from sklearn.cluster import KMeans
from sklearn.externals import joblib
import numpy

final = open('c:/test/final.dat' , 'r')

data = [line.strip().split('\t') for line in final]
feature = [[float(x) for x in row[3:]] for row in data]

#調用kmeans類
clf = KMeans(n_clusters=9)
s = clf.fit(feature)
print s

#9個中心
print clf.cluster_centers_

#每個樣本所屬的簇
print clf.labels_

#用來評估簇的個數是否合適,距離越小說明簇分的越好,選取臨界點的簇個數
print clf.inertia_

#進行預測
print clf.predict(feature)

#保存模型
joblib.mp(clf , 'c:/km.pkl')

#載入保存的模型
clf = joblib.load('c:/km.pkl')

'''
#用來評估簇的個數是否合適,距離越小說明簇分的越好,選取臨界點的簇個數
for i in range(5,30,1):
clf = KMeans(n_clusters=i)
s = clf.fit(feature)
print i , clf.inertia_
'''

⑻ 監督分類和非監督分類的研究現狀

非監督分類是指人們事先對分類過程不施加任何的先驗知識,而僅憑數據(遙感影像地物的光譜特徵的分布規律),即自然聚類的特性,進行「盲目」的分類;其分類的結果只是對不同類別達到了區分,但並不能確定類別的屬性,亦即:非監督分類只能把樣本區分為若干類別,而不能給出樣本的描述;其類別的屬性是通過分類結束後目視判讀或實地調查確定的。非監督分類也稱聚類分析。一般的聚類演算法是先選擇若干個模式點作為聚類的中心。每一中心代表一個類別,按照某種相似性度量方法(如最小距離方法)將各模式歸於各聚類中心所代表的類別,形成初始分類。然後由聚類准則判斷初始分類是否合理,如果不合理就修改分類,如此反復迭代運算,直到合理為止。與監督法的先學習後分類不同,非監督法是邊學習邊分類,通過學習找到相同的類別,然後將該類與其它類區分開,但是非監督法與監督法都是以圖像的灰度為基礎。通過統計計算一些特徵參數,如均值,協方差等進行分類的。所以也有一些共性。

⑼ 為什麼說聚類分析是一種無監督的學習方法

聚類分析:對樣品或指標進行分類的一種分析方法,依據樣本和指標已知特性進行分類。本節主要介紹層次聚類分析,一共包括3個部分,每個部分包括一個具體實戰例子。

1、常規聚類過程:

一、首先用dist()函數計算變數間距離
dist.r = dist(data, method=" ")
其中method包括6種方法,表示不同的距離測度:"euclidean", "maximum", "manhattan", "canberra", "binary" or "minkowski"。相應的意義自行查找。

二、再用hclust()進行聚類
hc.r = hclust(dist.r, method = 「 」)
其中method包括7種方法,表示聚類的方法:"ward", "single", "complete","average", "mcquitty", "median" or "centroid"。相應的意義自行查找。

三、畫圖
plot(hc.r, hang = -1,labels=NULL) 或者plot(hc.r, hang = 0.1,labels=F)
hang 等於數值,表示標簽與末端樹杈之間的距離,
若是負數,則表示末端樹杈長度是0,即標簽對齊。
labels 表示標簽,默認是NULL,表示變數原有名稱。labels=F :表示不顯示標簽。

⑽ 什麼是監督分類和非監督分類

監督分類又稱訓練場地法、訓練分類法,是以建立統計識別函數為理論基礎、依據典型樣本訓練方法進行分類的技術,即根據已知訓練區提供的樣本,通過選擇特徵參數,求出特徵參數作為決策規則,建立判別函數以對各待分類影像進行的圖像分類。

非監督分類是以不同影像地物在特徵空間中類別特徵的差別為依據的一種無先驗類別標準的圖像分類,是以集群為理論基礎,通過計算機對圖像進行集聚統計分析的方法。根據待分類樣本特徵參數的統計特徵,建立決策規則來進行分類。

(10)有監督聚類擴展閱讀

監督分類的主要優點如下:

(1)可根據應用目的和區域,充分利用先驗知識,有選擇地決定分類類別,避免出現不必要的類別;

(2)可控制訓練樣本的選擇;

(3)可通過反復檢驗訓練樣本,來提高分類精度,避免分類嚴重錯誤;

(4)避免了非監督分類中對光譜集群組的重新歸類。

缺點如下:

(1)其分類系統的確定、訓練樣本的選擇,均人為主觀因素較強,分析者定義的類別有可能並不是圖像中存在的自然類別,導致各類別間可能出現重疊;分析者所選擇的訓練樣本也可能並不代表圖像中的真實情形;

(2)由於圖像中同一類別的光譜差異,造成訓練樣本沒有很好的代表性;

(3)訓練樣本的選取和評估需花費較多的人力、時間;

(4)只能識別訓練樣本中所定義的類別,若某類別由於訓練者不知道或者其數量太少未被定義,則監督分類不能識別。

熱點內容
影視轉載限制分鍾 發布:2024-08-19 09:13:14 瀏覽:319
韓國電影傷口上紋身找心裡輔導 發布:2024-08-19 09:07:27 瀏覽:156
韓國電影集合3小時 發布:2024-08-19 08:36:11 瀏覽:783
有母乳場景的電影 發布:2024-08-19 08:32:55 瀏覽:451
我准備再看一場電影英語 發布:2024-08-19 08:14:08 瀏覽:996
奧迪a8電影叫什麼三個女救人 發布:2024-08-19 07:56:14 瀏覽:513
邱淑芬風月片全部 發布:2024-08-19 07:53:22 瀏覽:341
善良媽媽的朋友李采潭 發布:2024-08-19 07:33:09 瀏覽:760
哪裡還可以看查理九世 發布:2024-08-19 07:29:07 瀏覽:143
看電影需要多少幀數 發布:2024-08-19 07:23:14 瀏覽:121