基礎數據分析
1. 數據檢查
對所有樣本的總離子流色譜圖(TIC)色譜圖進行可視化檢查,如圖1:
圖1 代表性總離子圖(TIC)色譜圖
2. 數據預處理
將儀器檢測得到的原始數據轉化為通用格式,然后對質譜數據進行峰匹配、峰對齊和保留時間校正,得到去卷積的質譜數據。然后,對來自于同一個物質的各個峰數據進行歸屬分析。
3. 多維統計分析
對數據進行后處理,將處理后的數據導入到SIMCA軟件進行多維統計分析,在軟件中首先進行Pareto格式化(Par scaling)和平均中心化(mean-centering)處理,然后再進行PCA、PLS-DA和OPLS-DA等多維統計分析。
3.1整體PCA分析和組間PLS-DA分析
采用SIMCA軟件對整體樣本進行PCA分析(主成分分析),用于解釋和分析各組樣本之間的代謝差異。如圖2:
圖2 整體PCA分析
對樣本進行PLS-DA分析(偏最小二乘法判別分析),用于分析組間的差異代謝物信息的顯著性,并進行Permutation test(置換檢驗),結合模型的Q2和R2Y,驗證模型的可靠性。如圖3:
圖3 組間樣本PLS-DA分析和Permutation test
3.2 組間OPLS-DA分析和Volcano Plot分析
為消除無關噪音信息及準確獲得兩組樣本間的顯著性差異代謝物信息,我們采用組間OPLS-DA(正交偏最小二乘法判別分析)進行分析,進而獲得OPLS-DA模型和相關值(VIP值),作為下一步進行差異物定性篩選的參考。并可對OPLS-DA分析的結果進行Loading Plot分析和S-plot分析,另外使用R語言平臺進行Volcano Plot(火山圖)分析。如圖4:
圖4 組間樣本OPLS-DA分析和Loading Plot分析、S-plot分析和Volcano Plot分析
4. 單維統計分析
對數據進行單維統計分析,對數據分別進行Shapiro Wilk’s test、Welch’s t Test和Wilcoxon Mann-Whitney test (U test)。呈正態分布的變量則采用Welch’s t Test結果,而呈非正態分布的變量則采用Wilcoxon Mann-Whitney test結果,綜合得到各變量在各對比組之間的顯著性分析結果(p-value)。
5. 差異代謝物定性
多維統計分析(VIP>1)結合單維統計(p-value<0.05)尋找差異性表達代謝物,采用軟件人工結合的方式,使用RT和特征M/Z(GC-MS)或精確分子量和二級質譜(LC-MS)與數據庫進行逐一對比分析,差異性代謝物的定性方法為:搜索自建的標準物質數據庫、Fiehn GC/MS Metabolomics RTL Library、Golm Metabolome Database、Metlin、HMDB、KEGG、Lipid和NIST等商業數據庫。差異物列表示例如表1:
表1 組間樣本的差異性代謝物示例
Metabolites | p-value | VIP | FC(A/B) | HMDB | KEGG | Pathway (KEGG) |
pyruvic acid | 2.16E-03 | 1.71 | -0.51 | HMDB00243 | C00022 | Glycolysis / Gluconeogenesis; Citrate cycle (TCA cycle); Pentose phosphate pathway |
glucose | 4.11E-02 | 1.82 | 2.65 | HMDB00122 | C00031 | Glycolysis / Gluconeogenesis; Pentose phosphate pathway; Galactose metabolism |
gluconic acid | 1.52E-02 | 1.63 | 0.68 | HMDB00625 | C00257 | Pentose phosphate pathway |
mannitol | 4.11E-02 | 1.45 | 1.47 | HMDB00765 | C00392 | Fructose and mannose metabolism |
dulcitol | 2.16E-03 | 1.74 | 3.72 | HMDB00107 | C01697 | Galactose metabolism |
galactonic acid | 2.16E-03 | 1.96 | 2.24 | HMDB00565 | C00880 | Galactose metabolism |
ethanolamine | 2.16E-03 | 2.10 | 1.00 | HMDB00149 | C00189 | Glycerophospholipid metabolism |
… | … | … | … | … | … | … |
6. 相關性分析
6.1Pearson Correlation分析
為了表征各差異性代謝物之間的(濃度)相關性,我們會對這些物質的定量信息進行Pearson Correlation分析。如圖5:
圖5 差異性代謝物的相關性矩陣圖
6.2熱圖分析
為了表示差異物之間的聚類關系,我們會對這些物質的定量信息進行heatmap(熱圖)分析,如圖6:
圖6 差異性代謝物的熱圖
7. 代謝通路分析
7.1代謝通路進行歸類分析
我們采用KEGG數據庫對每個差異代謝物所屬的代謝通路進行歸類分析,如圖7:
圖7 差異性代謝物所屬KEGG代謝通路示例
7.2 metaboanalyst pathway分析
我們用軟件metaboanalyst對差異性代謝物進行pathway analysis,metabolome view如圖8所示。
圖8 差異性代謝物metabolome view
Pathway views如表2所示,total表示該途徑所含的代謝物總數,hits表示該途徑含有差異性代謝物數,-log(p)表示圖8縱坐標值,impact表示圖8橫坐標值。參數如表2:
表2 組間樣本的pathway view
Pathway | Total | Expected | Hits | Raw p | -LOG(p) | Holm adjust | FDR | Impact |
Pantothenate and CoA biosynthesis | 16 | 0.39402 | 2 | 0.05672 | 2.8695 | 1 | 1 | 0 |
Zeatin biosynthesis | 16 | 0.39402 | 2 | 0.05672 | 2.8695 | 1 | 1 | 0 |
Butanoate metabolism | 20 | 0.49252 | 2 | 0.08457 | 2.4702 | 1 | 1 | 0 |
Alanine, aspartate and glutamate metabolism | 21 | 0.51715 | 2 | 0.09208 | 2.3851 | 1 | 1 | 0 |
C5-Branched dibasic acid metabolism | 4 | 0.098505 | 1 | 0.09504 | 2.3534 | 1 | 1 | 0 |
Citrate cycle (TCA cycle) | 20 | 0.49252 | 1 | 0.39526 | 0.9282 | 1 | 1 | 0 |
Pyruvate metabolism | 20 | 0.49252 | 1 | 0.39526 | 0.9282 | 1 | 1 | 0.148 |
Purine metabolism | 55 | 1.3544 | 2 | 0.39676 | 0.9244 | 1 | 1 | 0.065 |
定制化分析
需要根據實驗結果進行定制化分析。
1. 定制化代謝通路分析
我們根據客戶的實驗結果,集合各方面現有成果,進行定制化的代謝通路分析,如圖9:
圖9 定制化代謝通路分析圖示例
2. 其他定制分析如使用Cytoscape軟件對樣本的代謝組、蛋白組、基因組進行關聯分析(如圖10),包括但不限于多組學關聯分析、多平臺數據整合分析等根據客戶實際需求,我們指定詳細的方案進行科學合理的分析。只要是基于代謝組學技術的所有統計分析,我們都可以提供高質量技術服務。
圖10 代謝組、蛋白組、基因組進行關聯分析示例