無監督樣本
1. 有監督學習和無監督學習的區別
機器學習任務根據訓練樣本是否有label,可以分為監督學習和無監督學習
監督學習的訓練樣本有label,主要是學習得到一個特徵空間到label的映射,如分類、回歸等
無監督學習的訓練樣本沒有label,主要是發現樣本的內部結構,如聚類、降維、可視化等
2. 有監督和無監督學習都各有哪些有名的演算法和深度學習
聽他人說的:無監督與監督學習的區別在於一個無教學值,一個有教學值。專但是,個人認為他屬們的區別在於無監督學習一般是採用聚簇等演算法來分類不同樣本。而監督學習一般是利用教學值與實際輸出值產生的誤差,進行誤差反向傳播修改權值來完成網路修正的。但是無監督學習沒有反向傳播修改權值操作,當然這里只是說的是特徵提取階段。
3. 非監督學習有哪些
無監督學習(Unsupervised Learning)是和監督學習相對的另一種主流機器學習的方法,我們知道監督學習解決的是「分類」和「回歸」問題,而無監督學習解決的主要是「聚類(Clustering)」問題。
從無監督學習說起:演算法模型有哪幾種?
監督學習通過對數據進行標注,來讓機器學習到,比如:小曹多重多高就是胖紙,或者用身高體重等數據,來計算得到小曹的BMI系數;而無監督學習則沒有任何的數據標注(超過多高算高,超過多重算胖),只有數據本身。
比如:有一大群人,知道他們的身高體重,但是我們不告訴機器「胖」和「瘦」的評判標准,聚類就是讓機器根據數據間的相似度,把這些人分成幾個類別。
那它是怎麼實現的呢?怎麼才能判斷哪些數據屬於一類呢?
這是幾種常見的主要用於無監督學習的演算法。
K均值(K-Means)演算法;
自編碼器(Auto-Encoder);
主成分分析(Principal Component Analysis)。
K均值演算法
K均值演算法有這么幾步:
從無監督學習說起:演算法模型有哪幾種?
隨機的選取K個中心點,代表K個類別;
計算N個樣本點和K個中心點之間的歐氏距離;
將每個樣本點劃分到最近的(歐氏距離最小的)中心點類別中——迭代1;
計算每個類別中樣本點的均值,得到K個均值,將K個均值作為新的中心點——迭代2;
重復234;
得到收斂後的K個中心點(中心點不再變化)——迭代4。
上面提到的歐氏距離(Euclidean Distance),又叫歐幾里得距離,表示歐幾里得空間中兩點間的距離。我們初中學過的坐標系,就是二維的歐幾里得空間,歐氏距離就是兩點間的距離,三維同理,多維空間的計算方式和三維二維相同。
4. 什麼是無監督學習
無監督學習:設計分類器時候,用於處理未被分類標記的樣本集
目標是我們不告訴計算機怎麼做,而是讓它(計算機)自己去學習怎樣做一些事情。非監督學習一般有兩種思路。第一種思路是在指導Agent時不為其指定明確的分類,而是在成功時採用某種形式的激勵制度。需要注意的是,這類訓練通常會置於決策問題的框架里,因為它的目標不是產生一個分類系統,而是做出最大回報的決定。這種思路很好的概括了現實世界,Agent可以對那些正確的行為做出激勵,並對其他的行為進行處罰。
強化學習的一些形式常常可以被用於非監督學習,由於沒有必然的途徑學習影響世界的那些行為的全部信息,因此Agent把它的行為建立在前一次獎懲的基礎上。在某種意義上,所有的這些信息都是不必要的,因為通過學習激勵函數,Agent不需要任何處理就可以清楚地知道要做什麼,因為它(Agent)知道自己採取的每個動作確切的預期收益。對於防止為了計算每一種可能性而進行的大量計算,以及為此消耗的大量時間(即使所有世界狀態的變遷概率都已知),這樣的做法是非常有益的。另一方面,在嘗試出錯上,這也是一種非常耗費時間的學習。
不過這一類學習可能會非常強大,因為它假定沒有事先分類的樣本。在某些情況下,例如,我們的分類方法可能並非最佳選擇。在這方面一個突出的例子是Backgammon(西洋雙陸棋)游戲,有一系列計算機程序(例如neuro-gammon和TD-gammon)通過非監督學習自己一遍又一遍的玩這個游戲,變得比最強的人類棋手還要出色。這些程序發現的一些原則甚至令雙陸棋專家都感到驚訝,並且它們比那些使用預分類樣本訓練的雙陸棋程序工作得更出色。
一種次要的非監督學習類型稱之為聚合(clustering)。這類學習類型的目標不是讓效用函數最大化,而是找到訓練數據中的近似點。聚合常常能發現那些與假設匹配的相當好的直觀分類。例如,基於人口統計的聚合個體可能會在一個群體中形成一個富有的聚合,以及其他的貧窮的聚合。
5. 為什麼目前的特徵學習演算法都是無監督的
聽他人說的抄:無監督與監督學習襲的區別在於一個無教學值,一個有教學值。但是,個人認為他們的區別在於無監督學習一般是採用聚簇等演算法來分類不同樣本。而監督學習一般是利用教學值與實際輸出值產生的誤差,進行誤差反向傳播修改權值來完成網路修正的。但是無監督學習沒有反向傳播修改權值操作,當然這里只是說的是特徵提取階段。
6. 什麼是無監督學習
監督學習
利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的過程,也稱為監督訓練或有教師學習。正如人們通過已知病例學習診斷技術那樣,計算機要通過學習才能具有識別各種事物和現象的能力。用來進行學習的材料就是與被識別對象屬於同類的有限數量樣本。監督學習中在給予計算機學習樣本的同時,還告訴計算各個樣本所屬的類別。若所給的學習樣本不帶有類別信息,就是無監督學習。任何一種學習都有一定的目的,對於模式識別來說,就是要通過有限數量樣本的學習,使分類器在對無限多個模式進行分類時所產生的錯誤概率最小。
不同設計方法的分類器有不同的學習演算法。對於貝葉斯分類器來說,就是用學習樣本估計特徵向量的類條件概率密度函數。在已知類條件概率密度函數形式的條件下,用給定的獨立和隨機獲取的樣本集,根據最大似然法或貝葉斯學習估計出類條件概率密度函數的參數。例如,假定模式的特徵向量服從正態分布,樣本的平均特徵向量和樣本協方差矩陣就是正態分布的均值向量和協方差矩陣的最大似然估計。在類條件概率密度函數的形式未知的情況下,有各種非參數方法,用學習樣本對類條件概率密度函數進行估計。在分類決策規則用判別函數表示的一般情況下,可以確定一個學習目標,例如使分類器對所給樣本進行分類的結果盡可能與「教師」所給的類別一致,然後用迭代優化演算法求取判別函數中的參數值。
在無監督學習的情況下,用全部學習樣本可以估計混合概率密度函數,若認為每一模式類的概率密度函數只有一個極大值,則可以根據混合概率密度函數的形狀求出用來把各類分開的分界面。
7. 為什麼說深度學習是無監督學習的一種
聽他人說的抄:無監督與監督學習的區別在於一個無教學值,一個有教學值。但是,個人認為他們的區別在於無監督學習一般是採用聚簇等演算法來分類不同樣本。而監督學習一般是利用教學值與實際輸出值產生的誤差,進行誤差反向傳播修改權值來完成網路修
8. 非監督學習對樣本進行聚類的常見方法有哪幾種
有簡單聚類方法、層次聚類法以及動態聚類法
9. ML基礎 無監督學習之協方差矩陣
在翻譯sklearn文檔 2.無監督學習 部分過程中,發現協方差矩陣幾乎貫穿整個章節,但sklearn指導手冊把協方差部分放在了這一章節偏後的部分,作為機器學習一個基礎概念,在這篇文章中,想把協方差矩陣的相關知識以及主要應用。
統計學中常用平均值,方差,標准差等描述數據。平均值描述了樣本集合的中間點;方差總是一個非負數,當隨機變數的可能值集中在數學期望的附近時,方差較小; 反之, 則方差較大。所以, 由方差的大小可以推斷隨機變數分布的分散程度, 方差能反映隨機變數的一切可能值在數學期望周圍的分散程度。標准差描述了各個樣本點到均值的距離的平均值。但這些統計量都是針對一維數據的計算,在處理高維數據時,便可以採用協方差來查看數據集中的一些規律。協方差來度量兩個隨機變數關系的統計量,它描述的意義是:如果結果為正值,則說明兩者是正相關的,否則是負相關的。需要注意的是,協方差是計算不同特徵之間的統計量,不是不同樣本之間的統計量。
協方差基本知識:
協方差公式:
設n個隨機向量:
從公式上看,協方差是兩個變數與自身期望做差再相乘, 然後對乘積取期望。也就是說,當其中一個變數的取值大於自身期望,另一個變數的取值也大於自身期望時,即兩個變數的變化趨勢相同, 此時,兩個變數之間的協方差取正值。反之,即其中一個變數大於自身期望時,另外一個變數小於自身期望,那麼這兩個變數之間的協方差取負值。下面根據舉一個例子來對協方差形象的解釋:
協方差矩陣是實對稱矩陣,實對稱矩陣的性質:
實對稱矩陣的不同特徵值對應的特徵向量時正交的實對稱矩陣的特徵值是實數,特徵向量是實向量實對稱矩陣必可對角化,且其相似對角矩陣的對角線元素為n個特徵值
協方差矩陣中的對角線元素表示方差, 非對角線元素表示隨機向量 X 的不同分量之 問的協方差. 協方差一定程度上體現了相關性, 因而可作為刻畫不同分 量之間相關性的一個評判量。若不同分量之問的相關性越小,則 非對角線元素的值就越小。特別地, 若不同分量彼此不相關, 那麼 C 就變成了一個對角陣。注意, 我們並不能得到協方差矩陣 $C(X)$ 的真實值, 只能根據所提供的 X 的樣本數據對其進行近似估計。因此, 這樣計算得到的協方差矩陣是依賴於樣本數據的, 通常提供的樣本數目越多 , 樣本在總體中的覆蓋面就越廣。
理解協方差矩陣的關鍵就在於牢記它計算的是不同維度之間的協方差,而不是不同樣本之間,拿到一個樣本矩陣,我們最先要明確的就是一行是一個樣本還是一個維度,心中明確這個整個計算過程就會順流而下,這么一來就不會迷茫了。其實還有一個更簡單的容易記還不容易出錯的方法:協方差矩陣一定是一個對稱的方陣,
經驗協方差
有時候由於種種原因,並不使用全部的樣本數據計算協方差矩陣,而是利用部分樣本數據計算,這時候就要考慮利用部分樣本計算得到的協方差矩陣是否和真實的協方差矩陣相同或者近似。
當提供的樣本數目相對於特徵數足夠多時,利用最大似然估計(或者稱為經驗協方差)計算的結果,可以認為是協方差矩陣的幾個近似結果。這種情況下,會假設數據的分布符合一個多元正太分布,數據的概率密度函數中是包含協方差矩陣的,利用最大似然函數,對其進行估計。
收縮協方差
在矩陣的求逆過程中, 最大似然估計不是協方差矩陣的特徵值的一個很好的估計, 所以從反演得到的精度矩陣是不準確的。 有時,甚至出現因矩陣元素地特性,經驗協方差矩陣不能求逆。 為了避免這樣的反演問題,引入了經驗協方差矩陣的一種變換方式,收縮協方差。
協方差矩陣——PCA實現的關鍵
PCA的本質其實就是對角化協方差矩陣。PCA的目的就是「降噪」和「去冗餘」。「降噪」的目的就是使保留下來的維度間的相關性盡可能小,而「去冗餘」的目的就是使保留下來的維度含有的「能量」即方差盡可能大。那首先的首先,我們得需要知道各維度間的相關性以及個維度上的方差啊!那有什麼數據結構能同時表現不同維度間的相關性以及各個維度上的方差呢?自然是非協方差矩陣莫屬。協方差矩陣度量的是維度與維度之間的關系,而非樣本與樣本之間。協方差矩陣的主對角線上的元素是各個維度上的方差(即能量),其他元素是兩兩維度間的協方差(即相關性)。我們需要的東西,協方差矩陣都有了。