命令行小工具:seqtk/csvtk/datamash/bioawk
455 字
2 分钟
命令行小工具:seqtk/csvtk/datamash/bioawk
生信命令行有一批小而精的工具,各自专注特定场景。本文覆盖 seqtk 序列抽样、csvtk 表格处理、datamash 命令行统计、bioawk 生信专用 awk,比手写 awk 更简洁可靠。
1. seqtk——序列抽样和格式转换
conda install -c bioconda seqtk -y
# 随机抽样10000条(-s种子保证可重复)seqtk sample -s42 sample.fastq 10000 > sub.fastq
# FASTA→FASTQ(质量全I)seqtk seq -F 'I' input.fa > output.fq
# 按名称列表提取seqtk subseq input.fa id_list.txt > subset.fa
# 统计seqtk comp input.fa # 每序列碱基组成seqtk fqchk input.fq # FASTQ质量概览2. csvtk——CSV/TSV表格处理
conda install -c bioconda csvtk -y
# 查看列名和前5行csvtk headers file.tsvcsvtk head -n 5 file.tsv
# 按列提取csvtk cut -f gene_id,log2FC,padj degs.csv
# 筛选(padj<0.05且log2FC>1)csvtk filter2 -f '$padj<0.05 && $log2FC>1' degs.csv
# 按列排序csvtk sort -k padj:n degs.csv
# 两个表格按基因ID合并csvtk join -f gene_id expr.tsv annot.tsv > merged.tsv表示数值列。padj:n 中的 :n 指定按数值排序。
3. datamash——命令行统计分析
apt install datamash
# 计算表达矩阵每行的均值cat expr.tsv | datamash mean 2-10
# 按分组统计cat data.tsv | datamash -g 1 mean 3 median 3
# 描述性统计cat values.txt | datamash min 1 q1 1 median 1 q3 1 max 1 sstdev 1比 R 快很多——百万行数据秒出统计量。
4. bioawk——生信专用awk
conda install -c bioconda bioawk -y
# 统计FASTQ质量bioawk -c fastx '{print $name, length($seq), meanqual($qual)}' sample.fq | head
# 筛选GC含量bioawk -c fastx 'gc($seq)>0.5' input.fq > gc_high.fq
# 统计FASTA序列长度分布bioawk -c fastx '{print $name, length($seq)}' genome.fa | datamash min 2 max 2 median 25. 踩坑
- seqtk sample的种子必设——
-s不加的话每次结果不同 - csvtk列索引从1开始——不是0-based
- datamash分组前必须排序——
sort -k1,1 | datamash -g 1 - bioawk遇到gzip——需要先
zcat管道传入
本文于 2026-01-20 实测。
文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!
命令行小工具:seqtk/csvtk/datamash/bioawk
https://fg.ink/posts/bioinfo-utility-tools/ 相关文章 智能推荐
1
命令行效率工具:bat/fd/ripgrep/jq
技术 bat替代cat带语法高亮、fd替代find、ripgrep(rg)替代grep、jq处理JSON/Bioinformatics API返回数据。生信数据探索场景全覆盖:查日志、搜序列名、统计特征、解析JSON配置。Debian 13实测
2
生信自学路线图:从Linux基础到独立分析
技术 生信学习路线:Linux基础→Conda环境→数据获取→质控比对→差异分析→可视化→可重复性。附每个阶段的学习资源和避坑指南
3
Biopython序列处理:文件读写与NCBI数据获取
技术 Biopython核心模块实操:SeqIO读FASTA/FASTQ、Seq对象序列操作、Entrez从NCBI获取数据、SeqRecord对象、多序列比对文件解析。含7个生信高频场景代码
4
seqkit:FASTA/FASTQ序列处理
技术 seqkit统计、过滤、抽样、格式转换、序列提取实操全解。Debian 13实测,含8个生信高频场景
5
bedtools区间操作:intersect/merge/coverage/closest
技术 bedtools核心子命令深度实操:intersect的overlap策略公式、merge合并、coverage覆盖率、closest最近邻、slop扩展、genomecov覆盖轨迹。BED/GFF/GTF格式详解,Debian 13实测
随机文章 随机推荐