HISAT2 RNA-seq比对:建索引、双端比对、参数调优
419 字
2 分钟
HISAT2 RNA-seq比对:建索引、双端比对、参数调优
HISAT2 是 RNA-seq 比对工具之一。相比 STAR,HISAT2 的优势在于内存占用更少(~8GB vs STAR 的 30GB+)、索引更小、对小基因组和低深度测序更友好。本文覆盖 HISAT2 安装、建索引、双端比对、参数调优和比对率统计全流程。
实测环境:Debian 13,HISAT2 v2.2.2,Conda安装。
1. 安装
conda install -c bioconda hisat2 -yhisat2 --version# hisat2-align-s version 2.2.22. 建索引
# 下载参考(人类GRCh38,hisat2专门格式)wget https://genome-idx.s3.amazonaws.com/hisat/grch38_genome.tar.gz
# 或者自己建hisat2-build ref.fa hisat2_index/grch38输出 8 个 .ht2 文件,大约 5GB。比 STAR 的索引(28GB+)小很多。
3. 双端比对
hisat2 -x hisat2_index/grch38 \ -1 sample_R1.fastq.gz -2 sample_R2.fastq.gz \ -S output.sam \ -p 8 \ --dta \ # 转录本组装模式,StringTie需要 --summary-file alignment_summary.txt参数:
-x:索引前缀--dta:下游用StringTie时必须加,会优化比对策略--rna-strandness:链特异性数据需要设(RF/FR),普通数据不用--summary-file:输出比对统计,必加
4. 比对率解读
cat alignment_summary.txtTotal pairs: 30000Aligned concordantly 1 time: 25500 (85.00%)Aligned concordantly >1 times: 3000 (10.00%)Aligned discordantly 1 time: 1500 (5.00%)Overall alignment rate: 95.00%RNA-seq比对率正常范围:85-95%。 低于80%检查数据质量和参考基因组。
5. HISAT2 vs STAR 选择
| 特性 | HISAT2 | STAR |
|---|---|---|
| 内存 | ~8GB | ~30GB |
| 索引大小 | ~5GB | ~28GB |
| 速度 | 中等 | 快 |
| 比对率 | 稍低 | 最高 |
| 推荐场景 | 内存受限/小基因组 | 标准RNA-seq流程 |
简单决策: 服务器内存≥32GB用STAR,内存紧张用HISAT2。
6. 踩坑
- 索引版本不兼容:hisat2 v2.1的索引用v2.2读会报错,必须重建
- —dta必须加:如果后续用StringTie做转录本组装,不加这个会丢失比对信息
- 单端vs双端:单端数据不加
-2参数即可
本文于 2025-08-05 实测。HISAT2 v2.2.2。
文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!
HISAT2 RNA-seq比对:建索引、双端比对、参数调优
https://fg.ink/posts/hisat2-rnaseq-alignment/ 相关文章 智能推荐
1
BWA短序列比对:建索引、比对、SAM输出
技术 BWA-MEM短序列比对全流程实操,从建索引、参数调优到SAM输出解读与比对率统计。
2
DESeq2差异表达分析:RNA-seq最小可用流程
技术 DESeq2差异表达分析的最小可用流程,从表达矩阵准备到火山图绘制,聚焦跑通全流程的实操步骤。
3
命令行小工具:seqtk/csvtk/datamash/bioawk
技术 seqtk、csvtk、datamash、bioawk等命令行小工具的生信实战指南,覆盖序列抽样、表格处理和快速统计场景。
4
生信自学路线图:从Linux基础到独立分析
技术 从Linux基础到独立分析的完整生信自学路线,覆盖环境配置、数据获取、质控比对、差异分析和可视化各个阶段。
5
Biopython序列处理:文件读写与NCBI数据获取
技术 Biopython核心模块SeqIO、Seq和Entrez的实操指南,覆盖FASTA/FASTQ读写、序列操作与NCBI数据获取。
随机文章 随机推荐