代謝組學常見問題(五):數據處理和分析相關基礎篇
Q:非靶向代謝組學發現沒有差異,該怎么辦?
A:首選需要確定這是這是否是合理的結果,即需要逐步自查:第一步確認樣本處理、收集、儲存和運輸是否出現異常情況。第二步檢查待測樣本的前處理、質控和數據統計分析過程是否正常。在走完以上環節后,如果發現沒有異常,那么說明對比分析確實沒有符合統計學意義的差異的代謝物(只要提前和譜領交流,并經給與確認的95%以上的課題設計,只要是不同處理的兩組及以上樣本,都具有符合統計學意義的差異的代謝物)。這時候還可以就檢測到的物質進行KEGG Pathway分析,即對代謝物參與的代謝通路進行研究,觀察是否有其他的補給途徑、代謝途徑與疾病之間是否存在一定的關聯性。
Q:譜領服務的結果是什么樣的,都包含哪些內容?
A:譜領生物代謝組學結果一般包含以下內容:
(1) 方法學內容,包含儀器型號、參數、樣本處理步驟、數據處理軟件以及所使用的試劑等詳細信息;
(2) 數據單維和多維統計分析:如T-test、PCA、PLS-DA、OPLS-DA分析等;
(3) 代謝物結構鑒定;
(4) 相關性分析(PearsonCorrelation);
(5) 熱圖分析(heatmap);
(6) 代謝途徑富集分析(pathwayenrichment analysis);
(7) 根據具體情況結合具體數據對客戶項目提供可行性建議;
(8) 我們會結合顧客的具體情況與需求來出報告表。
Q:有哪些操作避免樣本檢測出現較大誤差?
A:實驗誤差是客觀存在的,不可避免,但是,譜領通過在整個實驗環節加入質量控制(Quality Control)體系樣本、多內標(Internal Standard)校準、保留指數(Retention Index)校準以及跨時間質量控制體系來確保實驗誤差處于低水平,確??蛻臬@得高質量的數據。
Q:儀器對于所測代謝物的響應是一樣的嗎?
A:相同的儀器平臺和檢測方法對于同一種物質的響應是一樣的,對于不同的物質則可能不一樣,這與物質的結構和儀器及其具體運行的方法有關。因此,不同樣本中的同一物質可以通過儀器檢測得到的信號強弱對比知道其含量高低,而不同的物質,則不能通過信號強弱來判斷含量高低。對定性出來的代謝物通常只做橫向樣本間的對比,而不做縱向的比較。
Q:什么是韋恩圖?有什么用?
A:韋恩圖(Venn)用于顯示一個有限的不同集合之間的所有可能的邏輯關系。
Q:PCA分析的原理是什么?
A:每一個樣本檢測了許多指標(具體的話就是代謝物的含量),每個指標表示一個維度,則每個樣本都是一個多維的向量。在空間里看就是一團高維的數據云。PCA也就是主成分分析方法會通過投影的方式來對這個數據云進行降維處理,從而到達建立合適的模型來解釋和預測的目的。PCA得分圖一般展示的是PC1(第一主成分)和PC2(第二主成分)這兩個方向構成的平面上的投影。PC1、PC2這兩個方向是虛擬的不是具體的變量,是全部變量貢獻的。
Q:如何對差異代謝物做進一步的篩選?
A:一般是使用P值<0.05 vip="">1 這樣的閾值組合來進行差異物的篩選。
P值(P-value)來源單維統計分析(如T-test),VIP值來源于多元變量統計分析(如OPLS-DA)表征該變量對兩組差異的貢獻值。
使用P值<0.05 logfc="">1或 logFC<-1) [FC=Fold change]來進行差異物篩選也是有這樣的做法,但是P值和FC值都來源單元變量統計分析。
在此基礎上要做進一步的篩選的話,有以下幾個方法:
(1) P值<0.05,對VIP值做排序(VIP值越大,差異代謝物越有意義);
(2) VIP>1,對P值做排序(P值越小,差異代謝物越有意義);
(3) 在P值<0.05 vip="">1的范圍內,對logFC值做排序(大于1的logFC,越大越有意義;小于-1的logFC,越小越有意義);
限定更嚴格的基礎篩選條件,比如:P值<0.01& vip="">2。
Q:火山圖是什么,有什么用?
A:火山圖主要展示P-value、Fold-Change這兩個維度的信息(或者再此基礎上再映射其他信息:比如VIP值)。這些信息都是和差異代謝物的篩選息息相關的,所以展示了差異代謝物在所有物質的分布概況。
Q:R2和Q2分別是什么意思,怎么看?
A:R2X(針對PCA)或R2Y(針對PLS-DA)表示當前模型可對數據方差或變異進行解釋的比例,即解釋率,表明模型擬合優度(the goodness of fit)。Q2表示當前模型可對數據方差進行預測的比例,即預測率,表明當前模型的預測能力。關于R2X和Q2的值在什么范圍可以接受沒有定論,這個要取決于你所使用的標度化方法以及你的樣本。通常來說,如果你使用的是ctr的標度換算方法,那么R2X通常會高一些,而如果使用par或者UV的話,因為發生了畸變,R2X會低一些,所以沒有必要在意R2X這個值,而是關注R2Y。那么對于Q2來說,如果你的是細胞等一些實驗條件嚴格可控,個體差異比較小的樣本,那么要求Q2要高一些,比如0.8以上,而對于動物實驗來說,個體差異會大一些,要求的Q2值會小一些,比如0.4以上可以接受,但是如果對于人體實驗來說,因為生活習慣差異、飲食等各方面的差異而導致個體差異很大,那么一般我們會降低對它的要求,0.3甚至0.2都算是可以接受的
Q:PLS-DA與OPLS-DA模型有什么區別?
A:OPLS-DA比PLS-DA多了一個正交換算,把與模型分類不相關信號過濾掉,OPLS-DA解釋能力更強。比如組間差異比較小,組內差異比較大的情況,用PLS-DA VIP篩出的可能是組內差異變量,容易誤導,OPLS-DA是PLS-DA的升級版,全面優于PLS-DA。
Q:PCA和OPLS-DA模型中,有些樣本偏離了95%置信區間,這種數據需要剔除嗎?
A:根據情況確定:一般不建議剔除,因為生物學重復的目的就是為了減少誤差,數據中出現個別樣本偏離屬于正常情況,且也不會影響后續的數據分析,所以無需對數據進行剔除修改,保留其真實情況即可。但誤差較大,影響到后續分析了,則可以根據情況酌情剔除。
Q:置換檢驗判斷標準?
A:置換檢驗(Permutationtest)即隨機化檢驗或重隨機化檢驗。通常標準是R2<0.3,Q2<0.05,但有的時候樣本生物學重復太少,不滿足要求。所以只需要回歸線斜率是正的。
Q:峰面積的單位是多少?
A:沒有單位。
Q:總離子流圖的橫縱坐標單位?
A:橫軸是時間,min,縱軸是信號強度,沒有單位(或者說是單位是abundance)。
Q: “面積歸一化”中的“面積”是指一個樣本的總面積還是所有樣本的總面積?
A:一個樣本檢測的所有物質的總面積。
Q:如何從TIC圖中找到我關注物質的那個峰?
A:結合保留時間(RT)和特征質荷比(M/Z)值尋找。
Q:為什么對比分析只能兩兩對比?
A:因為在尋找差異物的過程中根據含量差異確定該物質是否是差異物,一個物質相在一組中的含量相對于另一組上升/下降了,而無法同時計算相對于兩組變化的量。
Q:兩組對比的樣本數量不一致可以嗎?
A:可以,只需要每組的生物學重復數量都要滿足最低需求。
Q:多平臺的數據整合到一塊做PCA模型可以嗎?
A:可以。
Q:ROC是什么,判斷標準是什么?
A:ROC(ReceiverOperating Characteristic)曲線和AUC常被用來評價一個二值分類器(binary classifier)的優劣。一般的,AUC值越接近1,這個二值分類器越優。
Q:熱圖的數據是怎么進行歸一化處理的?
A:(每個數值-平均數)/標準差 就是標準分數(standard score)也叫z分數(z-score)。
Q:如何獲得高質量GC-MS代謝組學數據?
A:實驗設計先不談,在儀器分析階段,若想獲得高質量數據,有以下幾個方面需要注意。
(1) 前處理方法的一致性。實驗誤差是客觀存在的,但可以通過合理、規范的操作減少誤差。因此,一般情況建議一個項目應當只由一個人負責前處理,或使用自動衍生設備,以減少人為誤差。
(2) 檢測之前需確保儀器處于最佳工作狀態。儀器的控制軟件都有系統自檢功能,可以快速便捷地核查質譜儀器的狀態。但更重要的是氣相色譜狀態,推薦使用一組混標作為儀器質控。在每一個項目開始之前,先進行質控樣檢測,確認氣相色譜的分離度和質譜的整體響應。
(3) 后期數據矯正,特別是對于大數量樣本或者時間跨度大的項目,可以在檢測序列中加入隨行質控樣本(可每個樣品取少量后混合),在后期數據處理時,使用質控樣本結合算法對整體數據進行矯正。
Q:為什么有的GC-MS檢測的數據中代謝物會出不止一個峰?
怎么處理?
A:GC-MS中這種情況主要是由于衍生化反應造成的。當代謝物有多個活潑氫時,會產生三甲基硅烷基(TMS)取代數目不同的衍生產物。如甘氨酸會生成2TMS和3TMS取代的衍生物。即使衍生試劑過量,也很難保證不同TMS取代個數的產物比例會保持一致。因此,通常的做法是將同一個代謝物的所有衍生產物的面積進行加和。譜領會在數據分析中根據需要最優化處理這類問題。
Q:代謝物的峰面積是如何計算的?
A:軟件會對原始質譜數據做基線計算、平滑、峰查找和解卷積。在解卷積之后,軟件會考察代謝物所有碎片的信噪比、碎片提取離子流圖(EIC)的對稱性以及碎片色譜峰的純度(共流出干擾的程度),最終自動挑選出一個最優的離子對。最終的峰面積是對定量離子進行積分所得。
Q:怎么看譜圖?每個坐標代表什么?什么是解卷積?
A:一般情況下,儀器檢測得到的譜圖是三維的,X軸橫坐標是保留時間,Y軸縱坐標是豐度,Z軸是每個時間點對應的質譜碎片信息。通常看到的總離子流色譜圖(TIC)是軟件根據質譜采集到的一個個數據點擬合出來的,每一個數據點背后就有一張質譜圖。當兩個或多個色譜峰沒有分離開而共流出時,質譜采集到的數據點就是一張混雜的質譜圖,包含了多個組分的碎片(feature)信息。如果直接用于定性分析會導致物質相似度的降低和組分的丟失。解卷積(Deconvolution)就是利用數學算法將色譜未分離的組分重新解析開,還原它們真實的質譜信息。解卷積是基于算法,也會出現誤差,因此,好的色譜分離依然十分重要。
Q:GC-MS如何提高定性準確度?
A:GC-MS的定性有雙重標準,一是上保留指數(RI)或保留時間(RT),二是質荷比(M/Z),將儀器得到的質譜信息帶入質譜數據庫(如NIST庫)進行比對后,介入富有經驗的工程師進行人工核查,確保物質定性的準確性。
Q:保留指數是什么?其目的是什么?
A:保留指數(Retention Index),是定性的重要指標。它采用一系列保留指數基準物質(如脂肪酸甲酯和正構烷烴)作為參考,最終將保留時間轉換為指數。相比于保留時間,保留指數的特點是它只和色譜柱類型有關,而和其他儀器參數(如具體允許方法)無關。
例如,為達到最佳的色譜分離,GC-MS不同的升溫程序,此時,代謝物的RT就會發生改變,無法和質譜庫中的標準時間進行匹配。色譜柱使用較長時間后,一般會將柱前端截斷30-50CM(柱前端容易被嚴重污染,從而影響柱效。現在更好的方法是色譜柱前添加保護芯片)以恢復柱效。此時,所有代謝物的保留時間都會提前。保留指數不會受到這些實驗條件的影響,依然可以用于準確定性。
Q:物質定性,譜圖吻合度多高可以確認?
A:不管是串聯質譜還是時間飛行質譜,沒有標準品物質的保留時間和質譜信息的鑒定都是不精確的。沒有保留時間(單靠質譜信息或精確分子量)的判斷只能是推斷,需要進一步用標準品來驗證。如果經費有限,建議采購匹配度最高的標準品物質用以驗證。
PS:近期的問題總結就到這里,大家有問題可以留言,小編會整理,總結,并在下一期統一給予回復。
400-628-6528
www.xwtrm.com
專注 創新 精準 領先
本文為譜領生物原創,歡迎以個人名義轉發分享。以商業或其他目的需要轉載,請務必在正文前標注來源:譜領生物微信公眾號。