生物信息学数据库全景:序列/表达/功能/变异
608 字
3 分钟
生物信息学数据库全景:序列/表达/功能/变异
生信分析中有一个定律:你遇到的问题 90% 别人已经遇到过,80% 有现成的数据库可以查。 关键是你得知道去哪查。
本文整理生信最常用的 15 个免费数据库,按分析场景分类:序列类、表达类、功能类、变异类、表观类。
1. 序列类——找基因找序列
| 数据库 | 内容 | URL | 使用方式 |
|---|---|---|---|
| NCBI Nucleotide | 所有已知核酸序列 | ncbi.nlm.nih.gov/nucleotide | Entrez API / 网页下载 |
| Ensembl | 高质量基因组注释 | ensembl.org | BioMart批量下载 |
| UCSC Genome Browser | 基因组浏览器+注释track | genome.ucsc.edu | Table Browser导出 |
| RefSeq | NCBI精选参考序列 | — | 包含在NCBI中 |
怎么选: 人类/小鼠用 Ensembl,其他物种用 NCBI,需要看基因组track用 UCSC。
2. 表达类——找表达数据
| 数据库 | 规模 | 适用 |
|---|---|---|
| GEO | 600万+样本 | 小规模研究、练手 |
| SRA | 海量原始数据 | 需要原始FASTQ |
| TCGA | 33种癌症、2万+样本 | 癌症研究 |
| GTEx | 54种组织、1万+样本 | 正常组织表达参照 |
| ENCODE | 多组学标准化数据 | 表观+表达整合 |
TCGA下载:
BiocManager::install("TCGAbiolinks")library(TCGAbiolinks)query <- GDCquery(project = "TCGA-BRCA", data.category = "Transcriptome Profiling")GDCdownload(query)3. 功能类——注释基因功能
| 数据库 | 用途 | 关键工具 |
|---|---|---|
| UniProt | 蛋白质功能注释 | Swiss-Prot(人工审核,可靠) |
| GO | 基因本体论 | 富集分析 |
| KEGG | 代谢通路 | pathway可视化 |
| STRING | 蛋白质互作网络 | PPI网络构建 |
| Reactome | 信号通路 | 更现代的pathway数据库 |
快速查一个基因的功能:
curl "https://rest.uniprot.org/uniprotkb/search?query=TP53&format=tsv" | head -54. 变异类
| 数据库 | 规模 | 用途 |
|---|---|---|
| dbSNP | 人类SNP全集 | 变异ID标准化 |
| gnomAD | 14万人外显子组 | 人群频率过滤 |
| ClinVar | 临床致病性 | 变异致病性注释 |
| COSMIC | 癌症体细胞突变 | 肿瘤突变谱 |
gnomAD是变异过滤的黄金标准。 如果你的候选变异在 gnomAD 中人群频率 > 0.01(1%),大概率是多态性而非致病突变。
5. 表观类
| 数据库 | 内容 |
|---|---|
| ENCODE | 标准化ChIP-seq/ATAC-seq/DNase-seq |
| Roadmap Epigenomics | 127种组织的表观图谱 |
| FANTOM5 | CAGE表达+增强子图谱 |
6. 数据库API——程序化查询
# 查UniProtimport requestsr = requests.get("https://rest.uniprot.org/uniprotkb/P04637", headers={"Accept": "application/json"})print(r.json()["proteinDescription"]["recommendedName"]["fullName"]["value"])
# 查Ensemblfrom Bio import EntrezEntrez.email = "your@email.com"handle = Entrez.esearch(db="gene", term="BRCA1[Gene] AND Homo sapiens[Organism]", retmax=1)record = Entrez.read(handle)print(record["IdList"])7. 踩坑
- 数据库版本要固定——Ensembl 和 UCSC 每年更新。写论文时注明数据库版本号。
- TCGA 数据需要申请——contrrolled-access 数据需要 dbGaP 申请,open-access 可以随便下。
本文于 2025-07-08 实测。
文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!
生物信息学数据库全景:序列/表达/功能/变异
https://fg.ink/posts/bioinformatics-databases-guide/ 相关文章 智能推荐
1
SRA数据下载:SRA-toolkit与国内镜像加速
技术 NCBI SRA数据库的下载全流程,覆盖prefetch断点续传、fasterq-dump转换和国内镜像加速方案。
2
GEO数据库数据下载与解析:公共数据挖掘入门
技术 GEO数据库表达数据的下载与解析方法,覆盖GEOquery批量获取、格式解读和国内网络加速方案。
3
ENSEMBL BioMart批量数据导出:REST API与biomaRt
技术 ENSEMBL BioMart基因注释批量导出指南,覆盖REST API与biomaRt两种方式获取GO、KEGG和同源基因信息。
4
参考基因组下载与索引准备:Ensembl/UCSC/NCBI
技术 从Ensembl、UCSC、NCBI三大来源获取参考基因组并准备bwa、bowtie2、hisat2全套索引的完整指南。
5
下载加速:axel/aria2多线程与断点续传
技术 axel与aria2多线程下载方案的详细对比,覆盖SRA/ENA/GEO等生信场景下的断点续传、限速与批量下载。
随机文章 随机推荐