生物医学数据挖掘:GEBA-I 1003基因组数据集
一、背景信息:
该数据集来自 GEBA-I,属于 DOE JGI 的细菌与古菌基因组百科全书 (Genomic Encyclopedia of Bacteria and Archaea, GEBA) 项目。
GEBA-I 包含了 1003 个基因组(974 个细菌 和 29 古细菌类型菌株),其中 396 个基因组属于一个属的第一个测序基因组,极大扩展了微生物基因组系统进化多样性。
1003 个基因组的除了可以通过综合微生物基因组和微生物系统(Integrated Microbial Genomes with Microbiomes,IMG/M)获得数据,也可以通过 NCBI 的 Genbank 数据库获得基因组及其注释信息。
1003个基因组质量都很高,根据 CheckM (一款根据一组Marker基因评估基因组完整度的应用)的评估结果显示,平均基因组完整度可达到99.4%, 该数据集除了可以帮助更准确的鉴定菌株,对环境DNA样本测序的注释(功能和物种来源)也会有很大贡献。
菌株生境分布图, 包括了工业废弃物、人体、极端环境、陆地生物群落、土壤、污泥、食物、动植物的等。
菌株生境分布图
了解更多请参考GEBA项目可以参考下面两个连接:
- Jonathan Eisen:GEBA pilot文章背后的故事
- DOE JGI: GEBA项目主页
二、数据处理:
- 菌株信息
可以从 Nature Biotechnology 补充材料 ( 地址 ) 获得菌株信息,主要信息为IMG基因组编号以及 GenBank 编号。
第三方提交的名称一般比较错乱,统一使用NCBI的拼装数据库 (文章, 数据库) 是比较好的选择,所有需要将提供的 GenBank LOCUS号、GenBank ACCESSION号、SRA号 以及GenBank拼装号,统一转换成拼装数据库中的拼装号会比较合适。
tabtk cut -r -f1,4,6,20 data/assembly_summary_genbank.txt >>analysis/assembly.txt
tabtk cut -r -f19,9,2,21 data/prokaryotes.txt >>analysis/assembly.txt
- 关系映射
通过GenBank的拼装报告获取NCBI的基因组拼装标识符,并进行下载数据以及获取物种信息。
geba-map analysis/assembly.txt analysis/GEBA-I.txt >analysis/GEBA-I-assembly.txt
注: 其中一个编号映射重复,所有一共1002个基因组数据。
- Taxonomy 映射并绘制物种分布图
taxon-translate /biostack/database/taxonomy/ncbi.map analysis/GEBA-I-assembly.txt | tabtk_bins - 1 | tabtk cut -r -f2,1 | sort -k1nr | sed 's/;/\t/g' > analysis/GEBA-I.krona
ktImportText -o analysis/GEBA-I.html analysis/GEBA-I.krona
1002个NCBI 拼装数据库物种分布图
数据分析来自DeepBiome数据挖掘团队: 2017-06-26