關于三代測序HiFi reads你值得一看的深度好文
2019.07.04

小科普:什么是HiFi reads?

HiFi reads(High fidelity reads)是Sequel II三代測序平臺推出的兼顧長讀長和高準確度的測序序列,一般采用CCS(Circular Consensus Sequencing)模式測序。在這種測序模式下,酶讀長一般大于插入片段長度,因此酶會繞著模板進行滾環測序,插入片段會被多次測序。單次測序中造成的隨機測序錯誤,可以通過算法進行自我糾錯校正,最終得到高準確度的HiFi reads。要在單次測序中得到更多的HiFi reads往往需要平衡測序的酶讀長和插入片段的長度,插入片段太長會導致酶無法進行滾環測序,插入片段太短又犧牲了三代長讀長測序的優勢。因此HiFi模式測序對酶試劑和建庫過程的均一性要求較高。做完科普了,小編先帶大家看一下安諾近期下機的HiFi測序數據~

安諾HiFi reads數據測評

根據前期的官方經驗推薦,目前HiFi文庫構建的插入片段一般為8-13 kb左右。本次安諾優達構建約10 kb的HiFi文庫在Sequel II平臺進行測序。原始下機數據單cell產出268 Gb數據,其中酶平均讀長51 kb,酶讀長N50 124 kb,subreads平均讀長11 kb,subreads N50 13 kb。

下機數據產出統計表

1.jpg

進一步利用官方軟件調取CCS,設置最小pass數為3,經過調取獲得CCS總數據量為22.43 Gb,CCS 序列數目為172.5萬條,平均長度13 kb。與下機總數據量相比,目前CCS reads的得率約為8%,并且能夠兼顧reads的讀長,達到平均13 kb左右,數據質量相當不錯!

CCS數據產出統計表

2.jpg

小編對我們拿到的HiFi reads進行進一步的質量評估,發現大部分HiFi reads的準確度都在0.95以上,其中約35%的reads(pass≥10)質量值達到QV30(99.9%),這樣高質量的reads非常有助于研究者開展下游深入的研究。

3.jpg

HiFi reads有哪些用處?

同時兼顧長讀長和高準確度的HiFi reads究竟有何用處呢?小編先帶大家看一篇今年發表在BioRxiv上的題為“Highly-accurate long-read sequencing improves variant detection and assembly of a human genome”的文章。在這篇文章里研究者利用約30X的CCS reads組裝人基因組,通過FALCON、 Canu3和 wtdbg2等不同軟件進行組裝,contig N50達到15.43-28.95 Mb。從組裝連續性來看,CCS reads能夠做到與傳統的CLR reads組裝相當的結果,重要的是基因組堿基準確度得到了明顯提升,基因組組裝消耗的計算資源和時間大幅下降[1]。進一步利用CCS reads進行SNP、InDel等變異檢測,發現CCS reads在小的變異檢出率和準確度上都有顯著提升,數據結果與30X的Illumina數據分析結果基本接近。

文章中CCS reads進行SNV和InDel calling統計表[1]

4.jpg

綜上可以看出,HiFi reads無論在基因組全變異檢測(SNV、InDel、SV)還是基因組de novo領域都有非常大的應用價值。目前唯一的限制因素是要獲得足夠的HiFi reads,測序成本的投入是比較昂貴的,但小編認為排除純測序成本的考量,從組裝計算資源節省和項目時間縮短的角度來看,HiFi reads未嘗不是更好的選擇。對于基因組重復序列較多的復雜基因組,目前市場上傳統長讀長測序準確度不高的特點給組裝造成了一定的困難,高準確度的HiFi reads未來可能是一個更好的解決方案。而對于昆蟲、中草藥、藻類等重復序列較高、基因組較小的物種(<700 Mb),目前利用一個8 M SMRT Cell 產出的數據量基本足以支持CCS組裝,性價比更高。安諾基因目前已經搭建了完善的HiFi文庫建庫流程和基于CCS reads組裝的生信流程,期待與大家合作!

參考文獻:

[1] Wenger, Pelusol, et al. Highly-accurate long-read sequencing improves variant detection and assembly of a human genome[J]. BioRxiv, 2019.

分享:
Copyright ? 安諾優達基因科技(北京)有限公司 京ICP備12029022號-1
大香蕉电影 大香蕉网 大香蕉在线影院 伊人大香蕉 伊人大香蕉久久网