生信文件格式:FASTQ/SAM/BAM/VCF/GFF/BED
462 字
2 分钟
生信文件格式:FASTQ/SAM/BAM/VCF/GFF/BED
FASTQ、SAM/BAM、VCF、GFF/GTF、BED——这些是生信分析中出现频率最高的文件格式。了解每种格式的结构和用途是读懂流程的前提。本文覆盖 7 种核心格式的结构解析、用途对比和互转方式。
1. FASTQ——最原始的数据
每4行一条read:
@SEQ_IDATCGATCGATCGATCGATCG+IIIIIIIIIIIIIIIIIII- 第1行:
@开头 + read ID - 第2行:序列
- 第3行:
+(可选带ID) - 第4行:质量分数(Phred+33编码)
质量分数公式: ,ASCII码 = Q + 33。
单个文件常用工具:seqkit stats、fastqc、head -4。
2. FASTA——参考序列和转录本
>gene_id descriptionATCGATCGATCGATCG...>开头行是ID,可以包含多个字段(用|分隔)- 序列可以换行,但建议单行(seqtk seq可以整理)
3. SAM/BAM——比对结果
SAM是文本、BAM是二进制压缩版(体积小70-90%)。
read1 0 chr1 100 42 50M * 0 0 ATCG... IIII...核心转换:
samtools view -bS input.sam > output.bam # SAM→BAMsamtools view -h output.bam > output.sam # BAM→SAM4. VCF——变异信息
#CHROM POS ID REF ALT QUAL FILTER INFOchr1 100 . A G 50 PASS DP=100- VCF v4.2 是当前标准
- 可以压缩为
.vcf.gz,配合.vcf.gz.tbi索引使用 - 变异注释通常用 snpEFF/VEP
5. GFF/GTF——基因组注释
chr1 . gene 1000 2000 . + . gene_id "GENE1";chr1 . exon 1000 1200 . + . gene_id "GENE1";GFF vs GTF:
- GFF(Generic Feature Format):灵活,9列
- GTF(Gene Transfer Format):GFF的子集,多了
gene_id和transcript_id约定
二者最大区别——坐标系统: GFF是1-based closed([start, end]),GTF也是1-based。但BED是0-based half-open。
6. BED——区间信息
最少3列:chrom start end。0-based。
# GFF→BED(start要减1)awk '$3=="gene" {print $1"\t"$4-1"\t"$5}' annotation.gff > genes.bed7. 格式转换命令速查
| 从 | 到 | 命令 |
|---|---|---|
| SAM | BAM | samtools view -bS |
| BAM | SAM | samtools view -h |
| FASTQ | FASTA | seqkit fq2fa |
| BAM | BED | bedtools bamtobed |
| GFF | BED | awk '{print $1"\t"$4-1"\t"$5}' |
| BED | bigBed | bedToBigBed |
| bedGraph | bigWig | bedGraphToBigWig |
8. 常用验证命令
# 检查GFF格式合法性gff3validator annotation.gff
# 检查BAM完整性samtools quickcheck input.bam && echo "OK" || echo "CORRUPT"
# 检查VCF压缩+索引bcftools index -t input.vcf.gz && echo "Index OK"
# 检查FASTA序列长度infoseq input.fasta | head本文于 2025-06-25 实测。
文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!
生信文件格式:FASTQ/SAM/BAM/VCF/GFF/BED
https://fg.ink/posts/bioinformatics-file-formats-guide/ 相关文章 智能推荐
1
VCF文件处理:bcftools过滤/注释/统计
技术 bcftools处理VCF文件的过滤、注释、统计和合并操作,含VCF四部分结构与各字段含义的详细解读。
2
Samtools:SAM/BAM格式操作全解
技术 Samtools处理SAM/BAM文件的完整实操,覆盖view、sort、index、flagstat等核心子命令及CIGAR与FLAG解读。
3
seqkit:FASTA/FASTQ序列处理
技术 seqkit处理FASTA/FASTQ序列文件的统计、过滤、抽样和格式转换操作,覆盖八个生信高频场景。
4
bedtools区间操作:intersect/merge/coverage/closest
技术 bedtools核心子命令intersect、merge、coverage、closest的深度实操,附带BED/GFF/GTF格式解读与输出分析。
5
生信自学路线图:从Linux基础到独立分析
技术 从Linux基础到独立分析的完整生信自学路线,覆盖环境配置、数据获取、质控比对、差异分析和可视化各个阶段。
随机文章 随机推荐