Categories

Recent Posts

生物医学数据挖掘:GEBA-I 1003基因组数据集

一、背景信息:

该数据集来自 GEBA-I,属于 DOE JGI 的细菌与古菌基因组百科全书 (Genomic Encyclopedia of Bacteria and Archaea, GEBA) 项目。

GEBA-I 包含了 1003 个基因组(974 个细菌 和 29 古细菌类型菌株),其中 396 个基因组属于一个属的第一个测序基因组,极大扩展了微生物基因组系统进化多样性。

1003 个基因组的除了可以通过综合微生物基因组和微生物系统(Integrated Microbial Genomes with Microbiomes,IMG/M)获得数据,也可以通过 NCBI 的 Genbank 数据库获得基因组及其注释信息。

1003个基因组质量都很高,根据 CheckM (一款根据一组Marker基因评估基因组完整度的应用)的评估结果显示,平均基因组完整度可达到99.4%, 该数据集除了可以帮助更准确的鉴定菌株,对环境DNA样本测序的注释(功能和物种来源)也会有很大贡献。

菌株生境分布图, 包括了工业废弃物、人体、极端环境、陆地生物群落、土壤、污泥、食物、动植物的等。

菌株生境分布图

hatitat

了解更多请参考GEBA项目可以参考下面两个连接:

二、数据处理:

可以从 Nature Biotechnology 补充材料 ( 地址 ) 获得菌株信息,主要信息为IMG基因组编号以及 GenBank 编号。

第三方提交的名称一般比较错乱,统一使用NCBI的拼装数据库 (文章数据库) 是比较好的选择,所有需要将提供的 GenBank LOCUS号、GenBank ACCESSION号、SRA号 以及GenBank拼装号,统一转换成拼装数据库中的拼装号会比较合适。

tabtk cut -r -f1,4,6,20 data/assembly_summary_genbank.txt >>analysis/assembly.txt
tabtk cut -r -f19,9,2,21 data/prokaryotes.txt >>analysis/assembly.txt

通过GenBank的拼装报告获取NCBI的基因组拼装标识符,并进行下载数据以及获取物种信息。

geba-map analysis/assembly.txt analysis/GEBA-I.txt >analysis/GEBA-I-assembly.txt

注: 其中一个编号映射重复,所有一共1002个基因组数据。

taxon-translate /biostack/database/taxonomy/ncbi.map analysis/GEBA-I-assembly.txt | tabtk_bins - 1 | tabtk cut -r -f2,1 | sort -k1nr | sed 's/;/\t/g' > analysis/GEBA-I.krona
ktImportText -o analysis/GEBA-I.html analysis/GEBA-I.krona

1002个NCBI 拼装数据库物种分布图
taxonomy

数据分析来自DeepBiome数据挖掘团队: 2017-06-26

June 26th, 2017 | Category: Uncategorized

Leave a Reply

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

  

  

  

About

Meta

June 2017
M T W T F S S
« Nov    
 1234
567891011
12131415161718
19202122232425
2627282930  

Blogrolls

Copyright © 2020 deepbiome.org - All Rights Reserved
Powered by WordPress & Atahualpa