冠狀病毒(CoVs)是來自冠狀病毒科的包膜單鏈陽性RNA病毒。最近新發現的一種冠狀病毒SARS-CoV-2被命名為COVID-19,這種疾病傳播迅速,截止2021年2月,其在全世界已造成幾十萬人死亡,單美國就有超過50萬人因此死亡。
目前COVID-19給全世界帶來了沉重的健康和財政負擔。病人損傷篩查和風險管理在政府和當局如何指導資源、規劃重新開放以及指定衛生對策等方面發揮著根本作用,特別是在貧窮地區顯得更為重要。鑒于其對全球經濟、衛生和社會的影響,目前全球正在進行數千項新的研究,都是為了了解病毒病理學和控制病毒傳播的目標,這些都直接影響到治療、疫苗、篩查測試和病人預后的戰略。
目前,可用的主要測試是基于通過抗原或RNA擴增(RT-PCR)直接檢測SARS-CoV-2病毒,血漿學測試以及RT-PCR和胸部CT結合以評估患者的免疫力。
“組學”是一門系統性的從整體上研究生物和生命科學科學的技術手段,目前將人工智能解釋算法和“組學”技術相結合運用的方法已經產生了使用機器學習(ML)的平臺來分析質譜(MS)數據,來達到對疾病進行生物標志物識別,當然這也可以對COVID-19嚴重程度進行評估和診斷。本篇文獻中,作者使用代謝組學技術和ML結合的技術對于Covid-19進行自動診斷和風險評估,十分具有代表性。下面,小編為大家分享此篇文獻的精彩。
COVID-19測試的緊迫性包括需要醫療決策工具來進行病人的風險分層和管理,而標準方法很難做到這一點。盡管這些程序的基礎已在文獻中有充分的文獻記載,但人們越來越擔心在現場實現的測試的敏感性和特異性,與程序相關的時間和成本,試劑和受過訓練的人員的可用性以及測試窗口。因為COVID-19的復雜性,所以準確診斷SARS-CoV-2和患者風險分類變得困難。SARS-CoV-2感染病理生理學反映了廣泛的患者癥狀,從輕微的流感樣表現,如發燒、咳嗽和疲勞,到危及生命的急性呼吸窘迫綜合征(ARDS)、血管功能障礙和膿毒癥。為了消除病原體,身體對SARS-CoV-2嚴重肺部感染的反應包括減少自然殺傷細胞(NK)、增加促炎細胞因子(IL-6、IFN-、TNFα等)和肺浸潤,特別是巨噬細胞和單核細胞,這可能導致組織損傷和器官損傷。此外,脂質穩態的變化是病毒感染的一個共同特征,且與SARS-CoV-2病理有關。此前有研究表明,在血漿樣品的脂質組學和代謝組學分析中,富含單唾液酸二己糖基神經節苷脂(GM3)的外顯子與COVID-19的嚴重程度有關。在同一研究中,循環?;鈮A的減少表明氧化應激和細胞能量支持的紊亂。還有研究提出了死亡患者血漿低密度脂蛋白(LDL)逐漸降低與膽固醇之間的關系。此外,對COVID-19癥狀的易感性還沒有完全了解,這些都阻礙了對任何潛在的結果預測。在本篇文獻中,作者將基于機器學習的算法與使用質譜的儀器分析相結合,創建了一個快速的診斷分析平臺,通過檢測分析血漿樣本可以在幾分鐘內區分COVID-19患者,同時還提供了風險評估工具,以協助醫療保健專業人員進行病人管理和決策。考慮到本文獻中引入的COVID-19的檢測工具是基于來自實際患者的代謝物,它可能被認為是SARS-CoV-2篩查的一種新方法。所提出的端到端質譜和機器學習組合旨在預測識別和建模COVID-19識別和風險評估的假定生物標志物。盡管輸入數據發生了變化,但為模型增加了魯棒性,這對于在實際環境中有效地實現是至關重要的;由于噪聲和采集條件的微小不同變化而產生的問題將不會對最終輸出產生重大干擾。因此,利用MS-ML技術在COVID-19診斷中的潛力,作者招募了728個個體的隊列來開發這個獨立的平臺,該平臺同時使用具有高度特異性和敏感性的血漿樣本作為自動篩選測試,并提供與疾病的存在和嚴重風險相關的代謝信息。通過使用非靶向代謝組學的方法,作者團隊在志愿者的血漿樣本中夠選擇和識別21個分子與疾病的病理生理學以及26個特征與病人的健康相關的結果。由于其盲檢數據具有特異性>97%和敏感性>83%,作者團隊認為這種診斷和篩選方法是一種具有巨大現實應用潛力的工具。圖1 實驗設計思路和分析流程
志愿者和樣本信息
在2020年4、5、6月和7月期間,在巴西三個疫情區域(圣保羅首都、圣保羅農村和馬瑙斯)的四個中心招募了728名患者(369名COVID-19確認患者和359名對照志愿者)參與研究。COVID-19組(CV):成人患者在過去7天內有一個或多個SARS-CoV-2感染的臨床癥狀(發燒、干咳、不適和/或呼吸困難)和SARS-CoV-2RT-PCR陽性。對照組(CT):無癥狀和RT-PCR陰性參與者(SN)和非感染對照組(AS)組成。本研究包括728名參與者,根據癥狀、RT-PCR檢測結果和各自的風險進行分類(圖1a)。CV組由369例癥狀性SARS-CoV-2確診病例的487份血漿樣本組成,多出來的118份樣本代表住院患者的第二次收集(中位數11天,SD3.8),恢復(R)或死亡(D)。高風險組(HRSP)包括中度和重度癥狀需要住院的患者(n=197),低風險(LRSP)類別(n=172)包括輕度癥狀重定向到家庭護理的患者。為模擬實際情況,沒有應用性別、年齡和禁食限制,并提供沒有病人偏見的結果。CT組由29SN和330AS組成,共359人,表S1(補充材料)顯示了詳細的人口學信息和參與者細分。樣品制備和質譜分析
外周靜脈血制備成血漿樣品在-80°C處冷凍用于分析。取其中20μL血漿中進行制備上機樣本,之后直接注入HESI-Q-Orbitrap?-MS高分辨率質譜(Thermo Scientific)進行正離子模式掃描進行隨機進樣檢測。生物標志物闡明
用Xcalibur3.0軟件算法確定的下機質譜數據的每個判別m/z的存在。利用METLIN、HMDB和LIPIDMAPS數據庫和文獻檢索進行分子鑒定。基于Kegg數據庫生物進行標記通路分析和意義信息和科學文獻。機器學習數據分析
本研究提出的用于COVID-19自動診斷和風險確定的MS-ML平臺由兩個主要數據分析階段組成,如圖2。
圖2 代謝組數據分析和診斷模型的建立
第一階段包括利用MS數據的分類算法開發機器學習模型(ML),以確定用于診斷和風險確定的潛在m/z生物標志物。第二階段建立一個預測程序,用于診斷和確定高風險和低風險程序,該程序將用于實地個人篩查。
通過MS-ML平臺進行COVID-19測試:建模和性能
質譜儀采集產生的完整數據集有846個生物樣本,每個樣本平均復制10個。表1顯示了擬合過程的數據準備(在10輪訓練和驗證中shuffled)和測試。在本研究中,作者采用一種新的順序處理代謝組學數據的機器學習算法,建立了一個分為兩個階段的模型。首先,對假定的生物標志物識別進行預測建模。然后,將生物標志物特征組合成相對對,組成現場診斷和風險評估所使用的預測模型(遞歸擬合如圖1b所示)。診斷分析是用完整的數據集進行的,而風險評估依賴于369名COVID-19陽性受試者,因為這是第二階段的分析。在COVID-19陽性受試者中,197人達到了當地的住院臨床標準,其余172人被轉送給家庭護理。表2和表3分別顯示了COVID-19自動診斷和風險評估分類器的成對特征的結果。梯度提升樹(GDB)得到COVID-19盲測自動診斷結果為:特異性97.6%,敏感性83.8%,風險評估:特異性76.2%,敏感性87.2%。
使用非靶向代謝組學分析COVID-19患者判別代謝物Panel
采用ML方法選擇了30種離子,并使用引入的成對模型(指標見表3)進行COVID-19診斷,并通過質譜數據進一步驗證。在此基礎上,作者提出了21種COVID-19條件下的判別生物標志物,分為對條件有10種陽性(陽性組平均值較高)和11種陰性貢獻的。在21個分子中,有8個屬于甘油磷脂類,3個甘油脂,3個脂肪酸,2個膽固醇衍生物,1個嘌呤代謝物,1個前列腺素,1個纖溶酶原,2個未知的多肽。其余的10個分子尚未被識別的非靶向代謝組學的共同元素。有效的生物標志物和未知特征見表4。對于風險評估,使用26個離子來實現表4中顯示的度量。其中9個生物標志物有助于COVID-19的高風險條件,17個生物標志物有助于降低風險。表4所示的主要發現表明,與輕度癥狀患者相比,中度/重度病例中某些種類的溶血磷脂酰膽堿(LysoPC)、磷脂、膽固醇酯(CE)和三酰甘油(TG)相對減少(圖2a)。在表4中,生物標志物首先按貢獻類型分組,然后通過J度量反映代謝類別/功能和重要性。圖2a顯示了生物標志物類和?J度量的表示。
MS-ML選擇的生物標志物和COVID-19病理生理學
使用AI解釋的算法使作者能夠創建可靠的模型,以促進診所的決策和研究不同生物標志物水平的病理生理意義。病毒識別是初始宿主免疫反應的重要步驟,與SARS-CoV感染相關的快速過程和細胞因子風暴可能與鳥苷和尿苷豐富(GU)的單鏈RNA作為PAMP(病原體相關分子模式)的潛在作用有關。脫氧鳥苷是嘌呤代謝的代謝物,在ssRNA存在下觸發TLR7的增強信號,誘導巨噬細胞分泌細胞因子。因此,需要進一步的研究來了解脫氧鳥苷在SARS-CoV-2免疫過度激活和病理中的潛在作用。主要發現的脂質表明甘油磷脂代謝的重塑。作者發現磷脂酰甘油(PG)[PG(35:4)、PG(35:1)、PG(33.1)]和磷脂酰乙醇胺(PE)[PE(38:4)]的存在增強,以及溶血磷脂酰膽堿(LysoPC)[LysoPC(16:0)、LysoPC(16:1)、LysoPC(18:0)、LysoPC(18:2)]和磷脂酰絲氨酸質體(PS-PL)(21)[PS(O-36:2)和/或PS(P-36:1)]在COVID-19陽性患者中的減少,如圖2a所示,甘油磷脂復發途徑。在需要住院的患者(中度和重度病例)的血漿樣本中,LysoPC[LysoPC(16:0)和LysoPC(18:2)]也被發現有負貢獻。細胞對各種刺激的反應可能由磷脂介導,磷脂積極參與炎癥過程。溶血磷脂酰膽堿在陽性患者和中度至重度患者中的相對含量降低,其中一些與最近對急性呼吸窘迫綜合征(ARDS)和膿毒癥代謝變化的研究結果一致,COVID-19嚴重程度的重要特征。LysoPC是通過磷脂酶A2(PLA2)介導的PC裂解形成的,其調制在炎癥過程中起著至關重要的作用(見圖2b中LysoPC的相關途徑)。PLA2的上調促進脂肪酸(eicosanoids和LysoPC的前體)的形成。數據表明,SARS-CoV核衣殼蛋白刺激Ciclooxyase-2(COX-2)的表達,Ciclooxyase-2(COX-2)是脂肪酸生成前列腺素的過氧化氫酶,如陽性組中的m/z407.1821中所發現的那樣。雖然作者發現了一種與eicosanoid生物合成相關的離子,表明陽性患者的PLA2和COX-2活性,但LysoPC在這組中相對減少。LysoPC的可用性也受到LCAT(溶血磷脂酰膽堿酰基轉移酶1)的?;D移酶活性的精細調節,這可能通過Lands周期促進PC的恢復。在LysoPC上由LCAT1活性形成的肺泡表面活性劑中發現的最豐富的脂質種類是磷脂酰膽堿[DPPC,PC(16:0/16:0)]。該分子對應于70-80%的表面活性劑脂質組成,表面活性劑薄膜的失調與肺損傷和ARDS直接相關。由于DPPC的形成取決于脂質底物的可用性和Lands循環功能,這一過程中的干擾可能會干擾LysoPC的可用性。此外,COVID-19病理生理學似乎破壞了膽固醇的穩態。作者在樣本中發現膽固醇酯(CE)與輕度癥狀有關。在康復過程中,發現肺泡巨噬細胞BMP增加,CEs增強。在臨床實踐中也觀察到膽固醇和LDL(低密度脂蛋白)降低與COVID-19預后不良有關,例如ARDS中的三酰甘油。在這篇文獻中,基于所提出的m/z離子,作者使用MS-ML組合生成的診斷和風險評估分類器對COVID-19患者進行了鑒別。雖然所提出的生物標志物將COVID-19病理生理學與數學過程聯系起來,但需要更全面的生物標志物評估,以更好地了解它們對COVID-19的貢獻,并確定未知因素。使用非靶向代謝組學和機器學習(ML)進行COVID-19的自動診斷和風險評估在復雜數據中,人工智能算法用于生物標志物挖掘的組合是解決問題和實施健康科學新技術的常用方法。利用機器學習作為從質譜數據中識別疾病的手段,旨在開發診斷和預后生物標志物、治療靶點和患者管理系統。作者的方法引入了成對的m/z分析,這是非靶向代謝組學應用的一個重要進展。通過組合不同的m/z,該方法支持不同質譜儀獲得的質譜數據,包括穩健地使用流注質譜(FI-MS),以克服離子抑制效應。具有成對特征的模型優化可以很容易地轉移到獨立的診斷平臺上。鑒于關鍵程序步驟是從生物樣品“ion-fishing”,因此這種方法不需要色譜和生物標志物定量的獨立診斷。本文獻所提出的用于COVID-19評估診斷的MS-ML平臺提供了可靠的定性結果,其特異性為97.6%,靈敏度為83.8%(盲測數據),與現有血漿學方法和RT-PCR方法相比,本方法性能相似甚至更好。此外,作者的研究還帶來了關于疾病病理生理學的分子信息,這些信息可能有助于確定COVID-19預后指標和治療靶點。總的來說,本文創建的診斷方案為公共衛生工作提供了一種公共COVID-19公共篩查和指導工作的的替代方案。同樣的方法也可以應用于大流行病期間與病人管理有關的其他疾病上。
Jeany Delafiori, Luiz Claudio Navarro, Anderson Rezende Rocha, et al. Covid-19 automated diagnosis and risk assessment through Metabolomics and Machine-Learning. Anal. Chem.2020, 6.