線性判別分析(discriminant_analysis.LinearDiscriminantAnalysis
) 和二次判別分析(discriminant_analysis.QuadraticDiscriminantAnalysis
) 是兩種經(jīng)典的分類(lèi)器,如它們的名字所示,分別具有線性和二次決策平面。
這些分類(lèi)器之所以有吸引力,是因?yàn)樗鼈冇幸恍?!--閉式(closed-form )-->的解析解,可以很容易地計(jì)算出,本質(zhì)上是多分類(lèi)的,在實(shí)踐中證明工作良好,并且沒(méi)有需要調(diào)優(yōu)的超參數(shù)。
圖中給出了線性判別分析和二次判別分析的決策邊界。底部那行證明線性判別分析只能學(xué)習(xí)線性邊界,而二次判別分析可以學(xué)習(xí)二次邊界,因此具有更大的靈活性。
示例 |
---|
協(xié)方差橢球的線性和二次判別分析LDA和QDA在人造數(shù)據(jù)上的比較 |
discriminant_analysis.LinearDiscriminantAnalysis
可用于執(zhí)行有監(jiān)督的降維,方法是將輸入數(shù)據(jù)投影到一個(gè)線性子空間,該空間由使類(lèi)與類(lèi)之間的分離最大化的方向組成(在下面的數(shù)學(xué)部分中討論的準(zhǔn)確意義)。輸出的維數(shù)必然小于類(lèi)的數(shù)量,因此,一般來(lái)說(shuō),這是一個(gè)相當(dāng)強(qiáng)的降維,并且只有在多類(lèi)設(shè)置中才有意義。
算法的實(shí)現(xiàn)是在discriminant_analysis.LinearDiscriminantAnalysis.transform
, 可以使用 n_components
參數(shù)設(shè)置所需的維數(shù)。這個(gè)參數(shù)對(duì)discriminant_analysis.LinearDiscriminantAnalysis.fit
或者 discriminant_analysis.LinearDiscriminantAnalysis.predict
沒(méi)有影響。
示例 |
---|
在lris數(shù)據(jù)集上比較LDA和PCA:基于lris數(shù)據(jù)集比較LDA和PCA的降維方法 |
LDA和QDA都可以從簡(jiǎn)單的概率模型中推導(dǎo)出來(lái),這種概率模型模擬了每一類(lèi)中的數(shù)據(jù)的條件分布
,然后,就可以利用貝葉斯公式進(jìn)行預(yù)測(cè):我們選擇可以使得上述條件概率最大化的
。更具體地說(shuō),對(duì)于線性和二次判別分析,
被建模為具有密度的多元高斯分布:其中
是特征的數(shù)目。根據(jù)上面的模型,后驗(yàn)的對(duì)數(shù)為:
常數(shù)項(xiàng)
對(duì)應(yīng)于分母 ,以及其他來(lái)自高斯的常數(shù)項(xiàng)。預(yù)測(cè)類(lèi)是使這種對(duì)數(shù)后驗(yàn)最大化的類(lèi)。注意:與高斯樸素貝葉斯的關(guān)系 |
---|
如果在QDA模型中,假設(shè)協(xié)方差矩陣是對(duì)角矩陣,在每個(gè)類(lèi)中,輸入都是條件獨(dú)立的,那么所得到的分類(lèi)器等價(jià)于高斯樸素貝葉斯分類(lèi)器naive_bayes.GaussianNB 。 |
LDA是QDA的特例,其中假設(shè)每個(gè)類(lèi)別的高斯都共享相同的協(xié)方差矩陣:
(對(duì)所有)。這將對(duì)數(shù)后驗(yàn)減少到:對(duì)應(yīng)在樣本 與均值樣品
之間的馬氏距離(Mahalanobis Distance)。馬氏距離表示距離均值的遠(yuǎn)近程度,同時(shí)還要考慮每個(gè)特征的方差。因此,我們可以將LDA解釋為根據(jù)馬氏距離把分配給最接近平均值的類(lèi),同時(shí)也考慮了類(lèi)的先驗(yàn)概率。LDA的對(duì)數(shù)后驗(yàn)也可以寫(xiě)為[3]:
and 。這些數(shù)量分別對(duì)應(yīng)于coef_
和intercept_
屬性。
由上式可知,LDA具有一個(gè)線性決策曲面。對(duì)于QDA,沒(méi)有對(duì)協(xié)方差矩陣的高斯的假設(shè) ,導(dǎo)致二次決策曲面。詳見(jiàn) [1] 。
首先請(qǐng)注意,表示 是 中的向量,并且導(dǎo)致 產(chǎn)生至少 個(gè)仿射子空間(2點(diǎn)在一條線上,3點(diǎn)在一條平面上,依此類(lèi)推)。
如上所述,我們可以將LDA解釋為分配 x 對(duì)那些卑鄙的人 μk在最接近馬氏距離上最接近,同時(shí)也考慮了該類(lèi)的先驗(yàn)概率?;蛘撸琇DA等效于首先對(duì)數(shù)據(jù)進(jìn)行球化處理,以使協(xié)方差矩陣為單位,然后分配x 以歐幾里得距離最接近均值(仍占先驗(yàn)類(lèi))。
如上所述,我們可以將LDA解釋為分配 給其在馬氏距離中是最接近均值的類(lèi),同時(shí)也考慮了類(lèi)的先驗(yàn)概率?;蛘?,LDA等價(jià)于首先將數(shù)據(jù)球化,以協(xié)方差矩陣作為單位,然后根據(jù)歐氏距離分配最接近的平均值(仍然考慮類(lèi)先驗(yàn))。
計(jì)算此 維空間中的歐幾里得距離等同于首先將數(shù)據(jù)點(diǎn)投影到 維空間中,然后計(jì)算距離(因?yàn)槠渌S度在距離方面將對(duì)每個(gè)類(lèi)別均等地做出貢獻(xiàn))。換句話說(shuō),如果 在原始空間中最接近 ,情況也會(huì)如此 。這說(shuō)明,在LDA分類(lèi)器中,通過(guò)線性投影到 K?1 維空間。
通過(guò)投影到線性子空間上, 使得投影后的的方差最大化, (事實(shí)上, 我們是對(duì)類(lèi)的均值)做了主成分分析(PCA), 我們就能進(jìn)一步的降維, 知道達(dá)到。這個(gè)L對(duì)應(yīng)于transform
方法中使用的參數(shù) n_components
。有關(guān)更多詳細(xì)信息,請(qǐng)參見(jiàn) [1]。
收縮(Shrinkage)是在訓(xùn)練樣本數(shù)相對(duì)于特征數(shù)較少的情況下改進(jìn)協(xié)方差矩陣估計(jì)的一種工具。在這種情況下,經(jīng)驗(yàn)樣本協(xié)方差是一個(gè)很差的預(yù)測(cè)器。Shrinkage LDA可以通過(guò)在 discriminant_analysis.LinearDiscriminantAnalysis
中將參數(shù)shrinkage
設(shè)置為‘a(chǎn)uto’來(lái)使用。這里自動(dòng)確定最優(yōu)的Shrinkage的參數(shù)的方法主要是依據(jù)Ledoit and Wolf [4]中所提到的理論。注意, Shrinkage要想起作用, 只有將參數(shù) solver
設(shè)置為 ‘lsqr’ or ‘eigen’。
shrinkage
參數(shù)也可以手動(dòng)設(shè)置在0到1之間。特別地是,0對(duì)應(yīng)于沒(méi)有收縮(這意味著將使用經(jīng)驗(yàn)協(xié)方差矩陣),而1對(duì)應(yīng)于完全收縮(這意味著方差的對(duì)角矩陣將用作協(xié)方差矩陣的估計(jì))。將此參數(shù)設(shè)置為這兩個(gè)極值之間的值將估計(jì)一個(gè)協(xié)方差矩陣的收縮版本。
使用LDA和QDA需要計(jì)算后驗(yàn)對(duì)數(shù),這取決于類(lèi)的先驗(yàn) ,該類(lèi)表示以及協(xié)方差矩陣。
“ svd”求解器是用默認(rèn)求解器 LinearDiscriminantAnalysis
,并且是 QuadraticDiscriminantAnalysis
唯一可用的求解器。它可以執(zhí)行分類(lèi)和轉(zhuǎn)換(對(duì)于LDA)。由于它不依賴(lài)于協(xié)方差矩陣的計(jì)算,“svd”求解器在特征數(shù)量較大的情況下可能更可取。'svd'求解器不能與收縮一起使用。SVD求解器的使用依賴(lài)于協(xié)方差矩陣 ,根據(jù)定義,等于
“ lsqr”求解器是僅適用于分類(lèi)的高效算法。它需要顯式計(jì)算協(xié)方差矩陣,并支持收縮。該求解器計(jì)算系數(shù)通過(guò)解決
,從而避免了對(duì)逆的顯式計(jì)算。‘eigen’ 解決器是基于類(lèi)散度與類(lèi)內(nèi)離散率之間的優(yōu)化。 它可以被用于分類(lèi)以及轉(zhuǎn)換,此外它還同時(shí)支持收縮。然而該解決方案需要計(jì)算協(xié)方差矩陣,因此它可能不適用于具有大量特征的情況。
示例 |
---|
正態(tài)和收縮線性判別分析在分類(lèi)中的應(yīng)用:帶收縮和不收縮LDA分類(lèi)器的比較 |
參考資料:
1(1,2)“The Elements of Statistical Learning”, Hastie T., Tibshirani R., Friedman J., Section 4.3, p.106-119, 2008. 2Ledoit O, Wolf M. Honey, I Shrunk the Sample Covariance Matrix. The Journal of Portfolio Management 30(4), 110-119, 2004. 3R. O. Duda, P. E. Hart, D. G. Stork. Pattern Classification (Second Edition), section 2.6.2.
更多建議: