宏基因组分析专题(4):宏基因组拼接的高效工具:megahit的安装和使用
在上一节“ 宏基因组分析专题(3):宏基因组数据的质控-fastQC和Trimmomatic的安装和使用 ”内容中我们讲解了测序数据的质量评估和控制 , 二代测序虽然其通量高 , 但是其错误率也高(通常一条read的前后若干bp错误率较高) , 在进行fastq质量评估和Trimmomatic对错误碱基进行修剪后 , 我们需要把质控后的reads通过一些软件结合一些算法把这些比较短的reads拼接成一些长一点的Contigs才能进行下一步的分析 。下面来介绍一下宏基因组拼接的软件和流程 。
写在前面宏基因组拼接工具有哪些?目前宏基因组拼接软件主要有4种:
(1)SOAPdenovo:这款软件由华大开发 , SOAPdenovo2是用于short-read组装的软件 , 主要用于组装比较大的基因组 ,组装速度快但是错误率较高 。
(2)SPAdes:metaSPAdes是目前宏基因组领域组装指标较好的软件 , 尤其在株水平组装优势明显 , 组装效果优 , 但是拼接时间长 , 资源消耗高
(3)IDBA:适合预测深度不均一的数据 , 且资源消耗过高
(4)Megahit:MEGAHIT是NGS de novo汇编程序 , 在土壤等复杂环境样本组装、大量样本混合组装方面优势明显 , 速度很快 , 消耗的资源少 。本文将重点介绍MEGAHIT的安装和使用 。
安装和使用第一:Megahit的介绍
MEGAHIT是NGS de novo汇编程序 , 用于以节省时间和成本的方式来汇编大型和复杂的宏基因组学数据 。它分别在具有和不具有图形处理单元的单个计算节点上 , 在44.1和99.6 h内完成了252 Gbps的土壤宏基因组学数据集的组装 。MEGAHIT将数据整体组装在一起 , 即不需要像分区和规范化这样的预处理 。与以前的组装土壤数据的方法相比 , MEGAHIT生成了三倍大的组装 , 具有更长的重叠群N50和平均重叠群长度;此外 , 有55.8%的读段与装配体对齐 , 从而提高了四倍 。
文章图片
文章图片
图1 Megahit的流程图Megahit组装的算法使用的是基于迭代的kmer的DBG法 , 其特点是超快和超高效内存使用 , 所以Megahit的软件运行速度极快 , 节约了大量的拼接时间 。
组装算法大致可以分为三类:1.基于OLC (Overlap-Layout-Consensus) , 适用于测序量不大的长片段数据2.基于kmer的DBG (de bruijn graph) , 适用测序量大的短片段数据3.综合OLC和DBG法第二:Megahit常用的参数
-1 一端测序的文件
【宏基因组分析专题(4):宏基因组拼接的高效工具:megahit的安装和使用】-2 另一端测序的文件
-m/--memory 在 SdBG 构造中使用的最大内存(以字节为单位)
--k-list 设置k参数 所有必须是奇数 , 在 15-255 范围内 , 增量 -o 输出的文件夹
--tmp-dir 输出临时文件
-v/--version 版本号
-v/--version 帮助第三:Megahit实战采用了上一章 , 用fastqc和Trimmatic质控后的数据:SRR1977249和SRR1976948双端质控后的数据 。对于SRR1977249
megahit -t 20 -1 SRR1977249_1.clean.fastq.gz -2 SRR1977249_2.clean.fastq.gz -o SRR1977249
图2
SRR1977249数据耗时323秒
文章图片
文章图片
图3
输出的文件是多个k组装而输出的文件
文章图片
文章图片
图4
同样的对于SRR1976948数据:
megahit -t 20 -1 SRR1976948_1.clean.fastq.gz -2 SRR1976948_2.clean.fastq.gz -o SRR1976948
- 英雄联盟手游狗头强度如何(英雄联盟手游内瑟斯技能属性分析)
- 原神雷神是什么定位(原神手游雷神定位分析)
- 阴阳师百闻牌化身有什么用(阴阳师百闻牌化身机制分析)
- 原神追忆之注连适合谁来用(原神追忆之注连适合角色分析)
- 伊甸园的骄傲安罗尔好用吗(伊甸园的骄傲安罗尔强度分析)
- 伊甸园的骄傲角色对应什么动物(伊甸园的骄傲角色对应动物分析)
- 复苏的魔女艾妮萌强不强(复苏的魔女艾妮萌培养价值分析)
- 哈利波特魔法觉醒寝室离线协助功能怎么用(寝室离线协助功能用法分析)
- 三国志战略版许攸怎么样(三国志战略版许攸属性及战法分析)
- 白夜极光助战角色选哪个(白夜极光助战角色选择思路分析)
