命令行小工具：seqtk/csvtk/datamash/bioawk - 风观

455 字

2 分钟

命令行小工具：seqtk/csvtk/datamash/bioawk

2026-01-20

效率工具

/

生信

/

NGS

生信命令行有一批小而精的工具，各自专注特定场景。本文覆盖 seqtk 序列抽样、csvtk 表格处理、datamash 命令行统计、bioawk 生信专用 awk，比手写 awk 更简洁可靠。

1. seqtk——序列抽样和格式转换#

1
conda install -c bioconda seqtk -y
2

3
# 随机抽样10000条（-s种子保证可重复）
4
seqtk sample -s42 sample.fastq 10000 > sub.fastq
5

6
# FASTA→FASTQ（质量全I）
7
seqtk seq -F 'I' input.fa > output.fq
8

9
# 按名称列表提取
10
seqtk subseq input.fa id_list.txt > subset.fa
11

12
# 统计
13
seqtk comp input.fa  # 每序列碱基组成
14
seqtk fqchk input.fq # FASTQ质量概览

2. csvtk——CSV/TSV表格处理#

1
conda install -c bioconda csvtk -y
2

3
# 查看列名和前5行
4
csvtk headers file.tsv
5
csvtk head -n 5 file.tsv
6

7
# 按列提取
8
csvtk cut -f gene_id,log2FC,padj degs.csv
9

10
# 筛选（padj<0.05且log2FC>1）
11
csvtk filter2 -f '$padj<0.05 && $log2FC>1' degs.csv
12

13
# 按列排序
14
csvtk sort -k padj:n degs.csv
15

16
# 两个表格按基因ID合并
17
csvtk join -f gene_id expr.tsv annot.tsv > merged.tsv

$n$ 表示数值列。padj:n 中的 :n 指定按数值排序。

3. datamash——命令行统计分析#

1
apt install datamash
2

3
# 计算表达矩阵每行的均值
4
cat expr.tsv | datamash mean 2-10
5

6
# 按分组统计
7
cat data.tsv | datamash -g 1 mean 3 median 3
8

9
# 描述性统计
10
cat values.txt | datamash min 1 q1 1 median 1 q3 1 max 1 sstdev 1

比 R 快很多——百万行数据秒出统计量。

4. bioawk——生信专用awk#

1
conda install -c bioconda bioawk -y
2

3
# 统计FASTQ质量
4
bioawk -c fastx '{print $name, length($seq), meanqual($qual)}' sample.fq | head
5

6
# 筛选GC含量
7
bioawk -c fastx 'gc($seq)>0.5' input.fq > gc_high.fq
8

9
# 统计FASTA序列长度分布
10
bioawk -c fastx '{print $name, length($seq)}' genome.fa | datamash min 2 max 2 median 2

5. 踩坑#

seqtk sample的种子必设——-s不加的话每次结果不同
csvtk列索引从1开始——不是0-based
datamash分组前必须排序——sort -k1,1 | datamash -g 1
bioawk遇到gzip——需要先 zcat 管道传入

本文于 2026-01-20 实测。

文章分享

如果这篇文章对你有帮助，欢迎分享给更多人！

命令行小工具：seqtk/csvtk/datamash/bioawk

https://fg.ink/posts/bioinfo-utility-tools/

作者

风观

发布于

2026-01-20

许可协议

CC BY-NC-SA 4.0

生信自学路线图：从Linux基础到独立分析

Vim配置与技巧：语法高亮、折叠、宏、多文件

相关文章智能推荐

命令行效率工具：bat/fd/ripgrep/jq

技术 bat替代cat带语法高亮、fd替代find、ripgrep(rg)替代grep、jq处理JSON/Bioinformatics API返回数据。生信数据探索场景全覆盖：查日志、搜序列名、统计特征、解析JSON配置。Debian 13实测

生信自学路线图：从Linux基础到独立分析

技术生信学习路线：Linux基础→Conda环境→数据获取→质控比对→差异分析→可视化→可重复性。附每个阶段的学习资源和避坑指南

Biopython序列处理：文件读写与NCBI数据获取

技术 Biopython核心模块实操：SeqIO读FASTA/FASTQ、Seq对象序列操作、Entrez从NCBI获取数据、SeqRecord对象、多序列比对文件解析。含7个生信高频场景代码

seqkit：FASTA/FASTQ序列处理

技术 seqkit统计、过滤、抽样、格式转换、序列提取实操全解。Debian 13实测，含8个生信高频场景

bedtools区间操作：intersect/merge/coverage/closest

技术 bedtools核心子命令深度实操：intersect的overlap策略公式、merge合并、coverage覆盖率、closest最近邻、slop扩展、genomecov覆盖轨迹。BED/GFF/GTF格式详解，Debian 13实测

随机文章随机推荐

文章目录