閱讀(1.1k) 書(shū)簽贊(0) 我要糾錯(cuò)

scikit-learn 線性和二次判別分析

2023-02-20 13:36 更新

線性判別分析(discriminant_analysis.LinearDiscriminantAnalysis) 和二次判別分析(discriminant_analysis.QuadraticDiscriminantAnalysis) 是兩種經(jīng)典的分類(lèi)器，如它們的名字所示，分別具有線性和二次決策平面。

這些分類(lèi)器之所以有吸引力，是因?yàn)樗鼈冇幸恍?!--閉式(closed-form )-->的解析解，可以很容易地計(jì)算出，本質(zhì)上是多分類(lèi)的，在實(shí)踐中證明工作良好，并且沒(méi)有需要調(diào)優(yōu)的超參數(shù)。

圖中給出了線性判別分析和二次判別分析的決策邊界。底部那行證明線性判別分析只能學(xué)習(xí)線性邊界，而二次判別分析可以學(xué)習(xí)二次邊界，因此具有更大的靈活性。

示例
協(xié)方差橢球的線性和二次判別分析LDA和QDA在人造數(shù)據(jù)上的比較

1.2.1.基于線性判別分析的降維方法

discriminant_analysis.LinearDiscriminantAnalysis 可用于執(zhí)行有監(jiān)督的降維，方法是將輸入數(shù)據(jù)投影到一個(gè)線性子空間，該空間由使類(lèi)與類(lèi)之間的分離最大化的方向組成(在下面的數(shù)學(xué)部分中討論的準(zhǔn)確意義)。輸出的維數(shù)必然小于類(lèi)的數(shù)量，因此，一般來(lái)說(shuō)，這是一個(gè)相當(dāng)強(qiáng)的降維，并且只有在多類(lèi)設(shè)置中才有意義。

算法的實(shí)現(xiàn)是在discriminant_analysis.LinearDiscriminantAnalysis.transform，可以使用 n_components參數(shù)設(shè)置所需的維數(shù)。這個(gè)參數(shù)對(duì)discriminant_analysis.LinearDiscriminantAnalysis.fit或者 discriminant_analysis.LinearDiscriminantAnalysis.predict沒(méi)有影響。

示例
在lris數(shù)據(jù)集上比較LDA和PCA:基于lris數(shù)據(jù)集比較LDA和PCA的降維方法

1.2.2 LDA和QDA分類(lèi)器的數(shù)學(xué)表達(dá)式

LDA和QDA都可以從簡(jiǎn)單的概率模型中推導(dǎo)出來(lái)，這種概率模型模擬了每一類(lèi)中的數(shù)據(jù)的條件分布

，然后，就可以利用貝葉斯公式進(jìn)行預(yù)測(cè)：

我們選擇可以使得上述條件概率最大化的

。

更具體地說(shuō)，對(duì)于線性和二次判別分析，

被建模為具有密度的多元高斯分布：

其中

是特征的數(shù)目。

1.2.2.1 QDA

根據(jù)上面的模型，后驗(yàn)的對(duì)數(shù)為：

常數(shù)項(xiàng)

對(duì)應(yīng)于分母

，以及其他來(lái)自高斯的常數(shù)項(xiàng)。預(yù)測(cè)類(lèi)是使這種對(duì)數(shù)后驗(yàn)最大化的類(lèi)。

注意：與高斯樸素貝葉斯的關(guān)系
如果在QDA模型中，假設(shè)協(xié)方差矩陣是對(duì)角矩陣，在每個(gè)類(lèi)中，輸入都是條件獨(dú)立的，那么所得到的分類(lèi)器等價(jià)于高斯樸素貝葉斯分類(lèi)器`naive_bayes.GaussianNB`。

1.2.2.2 LDA

LDA是QDA的特例，其中假設(shè)每個(gè)類(lèi)別的高斯都共享相同的協(xié)方差矩陣：

(對(duì)所有

)。這將對(duì)數(shù)后驗(yàn)減少到:

對(duì)應(yīng)在樣本與均值樣品

之間的馬氏距離（Mahalanobis Distance）。馬氏距離表示距離均值的遠(yuǎn)近程度，同時(shí)還要考慮每個(gè)特征的方差。因此，我們可以將LDA解釋為根據(jù)馬氏距離把分配給最接近平均值的類(lèi)，同時(shí)也考慮了類(lèi)的先驗(yàn)概率。

LDA的對(duì)數(shù)后驗(yàn)也可以寫(xiě)為[3]：

and 。這些數(shù)量分別對(duì)應(yīng)于coef_和intercept_屬性。

由上式可知，LDA具有一個(gè)線性決策曲面。對(duì)于QDA，沒(méi)有對(duì)協(xié)方差矩陣的高斯的假設(shè) ，導(dǎo)致二次決策曲面。詳見(jiàn) [1] 。

1.2.3 LDA降維的數(shù)學(xué)公式

首先請(qǐng)注意，表示是中的向量，并且導(dǎo)致產(chǎn)生至少個(gè)仿射子空間（2點(diǎn)在一條線上，3點(diǎn)在一條平面上，依此類(lèi)推）。

如上所述，我們可以將LDA解釋為分配 x 對(duì)那些卑鄙的人 μk在最接近馬氏距離上最接近，同時(shí)也考慮了該類(lèi)的先驗(yàn)概率?；蛘撸琇DA等效于首先對(duì)數(shù)據(jù)進(jìn)行球化處理，以使協(xié)方差矩陣為單位，然后分配x 以歐幾里得距離最接近均值（仍占先驗(yàn)類(lèi)）。

如上所述，我們可以將LDA解釋為分配給其在馬氏距離中是最接近均值的類(lèi)，同時(shí)也考慮了類(lèi)的先驗(yàn)概率?；蛘?，LDA等價(jià)于首先將數(shù)據(jù)球化，以協(xié)方差矩陣作為單位，然后根據(jù)歐氏距離分配最接近的平均值(仍然考慮類(lèi)先驗(yàn))。

計(jì)算此維空間中的歐幾里得距離等同于首先將數(shù)據(jù)點(diǎn)投影到維空間中，然后計(jì)算距離（因?yàn)槠渌S度在距離方面將對(duì)每個(gè)類(lèi)別均等地做出貢獻(xiàn)）。換句話說(shuō)，如果在原始空間中最接近，情況也會(huì)如此。這說(shuō)明，在LDA分類(lèi)器中，通過(guò)線性投影到 K?1 維空間。

通過(guò)投影到線性子空間上，使得投影后的的方差最大化， (事實(shí)上，我們是對(duì)類(lèi)的均值)做了主成分分析(PCA), 我們就能進(jìn)一步的降維，知道達(dá)到。這個(gè)L對(duì)應(yīng)于transform方法中使用的參數(shù) n_components 。有關(guān)更多詳細(xì)信息，請(qǐng)參見(jiàn) [1]。

1.2.4 收縮(Shrinkage)

收縮(Shrinkage)是在訓(xùn)練樣本數(shù)相對(duì)于特征數(shù)較少的情況下改進(jìn)協(xié)方差矩陣估計(jì)的一種工具。在這種情況下，經(jīng)驗(yàn)樣本協(xié)方差是一個(gè)很差的預(yù)測(cè)器。Shrinkage LDA可以通過(guò)在 discriminant_analysis.LinearDiscriminantAnalysis中將參數(shù)shrinkage設(shè)置為‘a(chǎn)uto’來(lái)使用。這里自動(dòng)確定最優(yōu)的Shrinkage的參數(shù)的方法主要是依據(jù)Ledoit and Wolf [4]中所提到的理論。注意， Shrinkage要想起作用，只有將參數(shù) solver設(shè)置為 ‘lsqr’ or ‘eigen’。

shrinkage參數(shù)也可以手動(dòng)設(shè)置在0到1之間。特別地是，0對(duì)應(yīng)于沒(méi)有收縮(這意味著將使用經(jīng)驗(yàn)協(xié)方差矩陣)，而1對(duì)應(yīng)于完全收縮(這意味著方差的對(duì)角矩陣將用作協(xié)方差矩陣的估計(jì))。將此參數(shù)設(shè)置為這兩個(gè)極值之間的值將估計(jì)一個(gè)協(xié)方差矩陣的收縮版本。

1.2.5 預(yù)估算法

使用LDA和QDA需要計(jì)算后驗(yàn)對(duì)數(shù)，這取決于類(lèi)的先驗(yàn) ，該類(lèi)表示以及協(xié)方差矩陣。

“ svd”求解器是用默認(rèn)求解器 LinearDiscriminantAnalysis，并且是 QuadraticDiscriminantAnalysis唯一可用的求解器。它可以執(zhí)行分類(lèi)和轉(zhuǎn)換(對(duì)于LDA)。由于它不依賴(lài)于協(xié)方差矩陣的計(jì)算，“svd”求解器在特征數(shù)量較大的情況下可能更可取。'svd'求解器不能與收縮一起使用。SVD求解器的使用依賴(lài)于協(xié)方差矩陣 ,根據(jù)定義，等于

，來(lái)自（居中）矩陣的SVD：。事實(shí)證明，我們可以計(jì)算上面的對(duì)數(shù)后驗(yàn)，而不必顯式計(jì)算：通過(guò)的SVD足夠計(jì)算 S 和 V 。對(duì)于LDA，將計(jì)算兩個(gè) SVD：居中輸入矩陣的SVDX以及類(lèi)均值向量的SVD。

“ lsqr”求解器是僅適用于分類(lèi)的高效算法。它需要顯式計(jì)算協(xié)方差矩陣，并支持收縮。該求解器計(jì)算系數(shù)通過(guò)解決

，從而避免了對(duì)逆的顯式計(jì)算。

‘eigen’ 解決器是基于類(lèi)散度與類(lèi)內(nèi)離散率之間的優(yōu)化。它可以被用于分類(lèi)以及轉(zhuǎn)換，此外它還同時(shí)支持收縮。然而該解決方案需要計(jì)算協(xié)方差矩陣，因此它可能不適用于具有大量特征的情況。

示例
正態(tài)和收縮線性判別分析在分類(lèi)中的應(yīng)用:帶收縮和不收縮LDA分類(lèi)器的比較

參考資料：

1(1,2)“The Elements of Statistical Learning”, Hastie T., Tibshirani R., Friedman J., Section 4.3, p.106-119, 2008.
2Ledoit O, Wolf M. Honey, I Shrunk the Sample Covariance Matrix. The Journal of Portfolio Management 30(4), 110-119, 2004.
3R. O. Duda, P. E. Hart, D. G. Stork. Pattern Classification (Second Edition), section 2.6.2.

以上內(nèi)容是否對(duì)您有幫助：

← scikit-learn 線性模型

scikit-learn 內(nèi)核嶺回歸 →

寫(xiě)筆記

我要補(bǔ)充