宏基因组实战3. MEGAHIT组装拼接及quast评估

EndNote相关资讯 | 2019-01-20 21:15

如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章

进入我们的工作目录安装程序

git clone cd megahit makecurl下载测序数据,或在百度云中下载,或使用在上节中K-mer trim的结果文件

cd ../data curl -O -training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR.abundtrim.subset.pe.fq.gz curl -O -training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249.abundtrim.subset.pe.fq.gz开始组装

cd .. mkdir assembly cd assembly ln -fs ../data/*.subset.pe.fq.gz . ../megahit/megahit --12 SRR.abundtrim.subset.pe.fq.gz,SRR1977249.abundtrim.subset.pe.fq.gz -o combined测试文件为了方便演示,只取了原数据的一小部分,原作者用15min,我的服务器运行只用了4min。原始数据使用三种主流软件分析,运行所消耗时间、内存比较。

查看拼接结果

less combined/final.contigs.fa评估组装结果-evaluation.html

安装评估软件quast

cd .. git clone -b release_4.5 export PYTHONPATH=$(pwd)/quast/libs/运行QUEST

cd assembly mkdir quast-evaluation cd quast-evaluation ln -fs ../combined/final.contigs.fa megahit.contigs.fa ../../quast/quast.py megahit.contigs.fa -o megahit-report cat megahit-report/report.txt下载metaSPAdes结果评估并比较

curl -LO mv download metaspades.contigs.fa.gz gunzip metaspades.contigs.fa.gz ../../quast/quast.py metaspades.contigs.fa -o metaspades-report cat metaspades-report/report.txt # look at the two reports in parallel paste *report/report.txt结果如下:

Assembly                    megahit.contigs    metaspades.contigs # contigs (>= 0 bp)         7904               4112               # contigs (>= 1000 bp)      2763               1843               # contigs (>= 5000 bp)      582                583               # contigs (>= 10000 bp)     191                244               # contigs (>= 25000 bp)     18                 43                 # contigs (>= 50000 bp)     2                  17                 Total length (>= 0 bp)                 12090326           Total length (>= 1000 bp)   11149439           11320830           Total length (>= 5000 bp)   5893043            7955570           Total length (>= 10000 bp)  3186708            5596677           Total length (>= 25000 bp)  663719             2500084           Total length (>= 50000 bp)  112488             1603525           # contigs                   3847               2280               Largest contig              61397              261464             Total length                11895322           11615922           GC (%)                      46.29              46.27             N50                         4924               9303               N75                         2524               3937               L50                         594                266               L75                         1455               754               # N's per 100 kbp           0.00               0.00结果N50和N75在metaspades结果更好,如果有计算资源,且不缺时间,推荐使用metaspades。但如果没有上T内存的服务器,项目周期又紧张,直接用metahit出结果。

系列教程:

专业技能:

一文读懂:

必备技能:

文献阅读

扩增子分析:

在线工具:

科研经验:

编程模板:

生物科普:

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”