HISAT2 RNA-seq比对:建索引、双端比对、参数调优

419 字
2 分钟
HISAT2 RNA-seq比对:建索引、双端比对、参数调优

HISAT2 是 RNA-seq 比对工具之一。相比 STAR,HISAT2 的优势在于内存占用更少(~8GB vs STAR 的 30GB+)、索引更小、对小基因组和低深度测序更友好。本文覆盖 HISAT2 安装、建索引、双端比对、参数调优和比对率统计全流程。

实测环境:Debian 13,HISAT2 v2.2.2,Conda安装。

1. 安装#

Terminal window
conda install -c bioconda hisat2 -y
hisat2 --version
# hisat2-align-s version 2.2.2

2. 建索引#

Terminal window
# 下载参考(人类GRCh38,hisat2专门格式)
wget https://genome-idx.s3.amazonaws.com/hisat/grch38_genome.tar.gz
# 或者自己建
hisat2-build ref.fa hisat2_index/grch38

输出 8 个 .ht2 文件,大约 5GB。比 STAR 的索引(28GB+)小很多。

3. 双端比对#

Terminal window
hisat2 -x hisat2_index/grch38 \
-1 sample_R1.fastq.gz -2 sample_R2.fastq.gz \
-S output.sam \
-p 8 \
--dta \ # 转录本组装模式,StringTie需要
--summary-file alignment_summary.txt

参数:

  • -x:索引前缀
  • --dta:下游用StringTie时必须加,会优化比对策略
  • --rna-strandness:链特异性数据需要设(RF/FR),普通数据不用
  • --summary-file:输出比对统计,必加

4. 比对率解读#

Terminal window
cat alignment_summary.txt
Total pairs: 30000
Aligned concordantly 1 time: 25500 (85.00%)
Aligned concordantly >1 times: 3000 (10.00%)
Aligned discordantly 1 time: 1500 (5.00%)
Overall alignment rate: 95.00%

RNA-seq比对率正常范围:85-95%。 低于80%检查数据质量和参考基因组。

5. HISAT2 vs STAR 选择#

特性HISAT2STAR
内存~8GB~30GB
索引大小~5GB~28GB
速度中等
比对率稍低最高
推荐场景内存受限/小基因组标准RNA-seq流程

简单决策: 服务器内存≥32GB用STAR,内存紧张用HISAT2。

6. 踩坑#

  • 索引版本不兼容:hisat2 v2.1的索引用v2.2读会报错,必须重建
  • —dta必须加:如果后续用StringTie做转录本组装,不加这个会丢失比对信息
  • 单端vs双端:单端数据不加-2参数即可

本文于 2025-08-05 实测。HISAT2 v2.2.2。

文章分享

如果这篇文章对你有帮助,欢迎分享给更多人!

HISAT2 RNA-seq比对:建索引、双端比对、参数调优
https://fg.ink/posts/hisat2-rnaseq-alignment/
作者
风观
发布于
2025-08-01
许可协议
CC BY-NC-SA 4.0
Profile Image of the Author
风观
风有来路,观有所思
分类
标签
站点统计
文章
50
分类
1
标签
29
总字数
61,837
运行时长
0
最后活动
0 天前

文章目录