微生物測序常見問題
01
測序深度、覆蓋深度
測序深度指的是測序得到的總堿基數與待測基因組大小的比值。
覆蓋深度是指測序獲得的序列占整個基因組的比例。理想情況下,物種基因組大小有多大與測序得到的序列量是吻合的,然而由于基因組中存在高GC、重復序列等復雜結構,導致測序拼接組裝的到的序列往往不能覆蓋基因組的所有區域。
例如,某個細菌基因組測序覆蓋深度為99%,則該細菌還有1%的序列不在測序所得序列之內。
02
引物(primer)、接頭(barcode)
引物(primer):是人工合成的一小段DNA或RNA序列,作為DNA復制的起始點。16S測序中目的片段的引物是基于保守區的序列設計的,為了解決堿基多態性的問題,盡量選擇覆蓋率高的引物。
接頭(barcode):一種標簽序列,也是人工設計的,有了它,在生信分析步驟中,便能將不同樣品的序列從測序所得的所有序列中辨別出來。
03
接頭(barcode)選擇原則是什么?
接頭的選擇主要是要兼顧堿基平衡和激光平衡,相當于ATCG四種堿基盡量都存在,且ATCG的比例接近一致,A+C=G+T。
04
16S擴增子建庫原理是什么?
16S擴增子建庫實質就是利用酶和引物對特定片段進行PCR富集和篩選。這種建庫方法,相對機器打斷法等方法來說成本較低。
05
OTU是什么?
OTU是一種操作分類單元。這種操作分類單元是通過特定的距離度量算法計算兩兩不同序列之間的距離度量或相似性,然后設置一定的分類閾值,得到同一閾值下的距離矩陣,進行聚類操作,從而形成的分類單元。簡單的說,就是相似性為97%的reads被歸為同一類別的核苷酸序列。
06
在對原始數據進行質控處理時,去掉了一部分不合格的序列,對樣品OUT抽平是為了讓各樣品的序列數保持一致,便于在同一標準上對各樣品進行Alpha多樣性分析等,保證有可比性。
07
每個OTU往往有多種reads,每種reads條數不同,在進行數據庫比對時,選取reads條數最多的核苷酸序列作為代表序列。
08
在理解Q20、Q30之前,我們先來理解堿基質量值(Q)的概念。二代測序,每個測序后的堿基都有一個質量值,這個質量值反映了測序的準確度情況。
行業中Q20(Q30)指的是測序序列中質量值大于或等于20(30)的堿基所占百分比,主要作用是評估序列測序的準確度。Q20(Q30)表示堿基被測錯的概率為1%(0.1%),準確率為99%(99.9%)。一般來說,準確度達到Q30的堿基量至少要為85%。
09
Contig N50 vs Scaffold N50
?
Contig N50為評估拼接reads效果的指標,
Scaffold N50為評估組裝contig成Scaffold時的組裝效果指標。
10
技術重復VS生物學重復、樣本測序量(總數據量不變、生物學重復數與單樣本測序量最佳組合)?
技術重復指的是同一樣品多次測量。
生物學重復指的是經過相同方式處理的相同樣品。生物學重復數量原則上越多測序結果越準確,但在實際的研究中,或由于科研經費有限亦或是由于生物學重復難度大,也常常會采取生物學重復數與單樣本測序量合理搭配的做法,從而保證研究結果準確性。
11
常見實驗樣本取樣指南?
土壤樣本取樣:選擇具有代表性的土壤,使用無菌工具,采集5-10cm深的一定量的土壤,去除雜質,分裝標記,每袋樣品約5-10g,密封后立即低溫保存。
糞便樣本取樣:用無菌糞便采集器或其它滅菌器皿收集糞便樣品,分裝標記并立即低溫保存(也可先標記并低溫保存后分裝)。每個樣本分裝幾管滅菌離心管,每管0.2g左右。小鼠個體較小,糞便不足0.2g時可將生物學重復樣本混合。注意糞便樣品不要在空氣中暴露太長時間,避免污染和降解。對于珍貴和較難收集的樣品,建議老師們進行備份。
12
16S測序物種注釋常用數據庫及其特點?
RDP( http://rdp.cme.msu.edu/seqmatch/seqmatch_intro.jsp)
RDP數據庫全稱“RibosomalDatabaseProject”,該數據庫提供質控、比對、注釋的細菌、古菌16SrRNA基因和真菌28SrRNA基因序列。該數據庫較適合于微生物的物種鑒定,可先預測出16SrRNA,然后用未知物種片段最長的完整16s核糖體RNA序列與RDP數據庫進行比對即可,可以在線比對也可把RDP數據庫下載到本地進行比對。(下圖展示的是在線比對方式)
比對時,若只是鑒定單個物種,直接把單條16Sribosomal RNA序列復制到序列框里,序列框下方有一些比對時的過濾選項,可自行設置以提高比對的針對性,然后點擊提交即可(如下圖所示)。若是需要大批量比對,可將各物種的16Sribosomal RNA序列合并在同一個文件,在【選擇文件】處導入文件,其它步驟與單個物種鑒定一致。
然后稍等一會,就會有比對結果出來,點擊viewselctable matches查看鑒定結果。
SILVA( https://www.arb-silva.de/ )
SILVA一詞起源于拉丁文silva(意為forest),它是一個包含三域微生物(細菌、古菌、真核)rRNA基因序列的綜合數據庫,其數據庫涵蓋了原核和真核微生物的小亞基rRNA基因序列(簡稱SSU,即16S和18SrRNA)和大亞基rRNA基因序列(簡稱LSU,即23S和28SrRNA)。
Greengenes( http://greengenes.lbl.gov/ )
Greengenes是專門針對細菌、古菌16S rRNA基因的數據庫,相比前面提到的RDP和SILVA數據庫,該數據庫更新速度較慢,目前更新停留在2013年5月更新的gg_13_5版本。
SILVA、RDP更新更及時。
13
數據是什么格式?
數據格式記住ID、E值、Score值等生信相關文件常見的選項的含義即可,其它的可以查閱https://genome.ucsc.edu/FAQ/FAQformat.html#format1,該網站對各類生信相關文件的格式解析較為齊全。
END