基于Alpha-NMF的AD樣本分類及特異性基因選擇方法

作者：時間：2012-05-25 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

1．2 Alpha-NMF算法
Alpha-NMF算法是NMF算法的一種改進，它是針對信號處理所提出的一種新的算法。
Alpha-NMF算法的數學模型為：

2 非負矩陣分解在基因表達譜數據中的應用
2．1 數據預處理
文中所選的實驗數據為基因表達綜合數據庫(GEO)中23組大腦海馬區域(HIP)和23組內嗅區皮質(EC)的AD樣本，54 675個基因表達數據；其中海馬區域的基因數據集由13個control AD樣本和10個affected AD樣本組成，內鼻皮質區域的基因數據集由13個control AD樣本和10個affectedAD樣本組成。由于基因表達譜數據的復雜性，在進行聚類分析前必須先進行預處理和數據轉換等過程。本文先采用小波變換(wave let transform，WT)方法對數據進行降噪，然后通過微陣列顯著性分析(significance analysis of microarrays,SAM)工具箱篩選出顯著變化的上下調基因。
2．2 Alpha-NMF算法應用于基因表達譜數據
Alpha-NMF算法被提出后，至今還設被應用于基因表達數據中，通過大量的實驗，證明了Alpha-NMF算法能夠有效的應用到該領域中，相比傳統NMF算法，其算法穩定性和分類準確率明顯較高。
基因表達譜數據的Alpha-NMF混合模型如圖1所示。Y表示mxn維基因表達譜數據，每一行表示一個樣本集，每一列表示一個基因在不同條件下的表達水平。yij表示第j個基因在條件i下的表達水平。通常nm。

本文引用地址：http://cqxgywz.com/article/193834.htm

任一樣本yi可以表示為：

也就是說每一個樣本可以近似看做是非負矩陣X的行向量的非負線性組合，組合系數是矩陣A對應行向量的分量。把分解后的矩陣X的每一行稱為一個集合基因。矩陣A的第k列為X的第k個集合基因的系數，若矩陣X能表征原始數據的局部特征，則系數矩陣A與樣本類別緊密相關，即類別c1對于特征k的貢獻大，而c2對于特征k的貢獻小。對于每一個集合基因(圖2為HIP數據經Alpha-NMF算法，α=0．5時分解后相關系數為0．97集合基因的柱狀圖)，若元素的值相對較大，說明其對應的基因j與AD緊密相關。

3 實驗結果與分析
首先采用WT-SAM方法分別對HIP和EC數據進行預處理，篩選后的基因數分別為13 587個、6 567個，再對數據進行菲負化處理，然后通過Alphs-NMF算法進行分解，利用分解后的A矩陣進行聚類，本文采用k均值聚類方法對A的行向量進行聚類，得到一聚類結果。對于矩陣X，設定一閾值，篩選出集合基因中大于該閾值的信息基因。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

基于Alpha-NMF的AD樣本分類及特異性基因選擇方法

評論

相關推薦

技術專區