Categories

生物医学数据挖掘:GEBA-I 1003基因组数据集

生物医学数据挖掘:GEBA-I 1003基因组数据集

一、背景信息:

该数据集来自 GEBA-I,属于 DOE JGI 的细菌与古菌基因组百科全书 (Genomic Encyclopedia of Bacteria and Archaea, GEBA) 项目。

GEBA-I 包含了 1003 个基因组(974 个细菌 和 29 古细菌类型菌株),其中 396 个基因组属于一个属的第一个测序基因组,极大扩展了微生物基因组系统进化多样性。

1003 个基因组的除了可以通过综合微生物基因组和微生物系统(Integrated Microbial Genomes with Microbiomes,IMG/M)获得数据,也可以通过 NCBI 的 Genbank 数据库获得基因组及其注释信息。

1003个基因组质量都很高,根据 CheckM (一款根据一组Marker基因评估基因组完整度的应用)的评估结果显示,平均基因组完整度可达到99.4%, 该数据集除了可以帮助更准确的鉴定菌株,对环境DNA样本测序的注释(功能和物种来源)也会有很大贡献。

菌株生境分布图, 包括了工业废弃物、人体、极端环境、陆地生物群落、土壤、污泥、食物、动植物的等。

菌株生境分布图

hatitat

了解更多请参考GEBA项目可以参考下面两个连接:

二、数据处理:

  • 菌株信息

可以从 Nature Biotechnology 补充材料 ( 地址 ) 获得菌株信息,主要信息为IMG基因组编号以及 GenBank 编号。

第三方提交的名称一般比较错乱,统一使用NCBI的拼装数据库 (文章数据库) 是比较好的选择,所有需要将提供的 GenBank LOCUS号、GenBank ACCESSION号、SRA号 以及GenBank拼装号,统一转换成拼装数据库中的拼装号会比较合适。

tabtk cut -r -f1,4,6,20 data/assembly_summary_genbank.txt >>analysis/assembly.txt
tabtk cut -r -f19,9,2,21 data/prokaryotes.txt >>analysis/assembly.txt

  • 关系映射

通过GenBank的拼装报告获取NCBI的基因组拼装标识符,并进行下载数据以及获取物种信息。

geba-map analysis/assembly.txt analysis/GEBA-I.txt >analysis/GEBA-I-assembly.txt

注: 其中一个编号映射重复,所有一共1002个基因组数据。

  • Taxonomy 映射并绘制物种分布图

taxon-translate /biostack/database/taxonomy/ncbi.map analysis/GEBA-I-assembly.txt | tabtk_bins - 1 | tabtk cut -r -f2,1 | sort -k1nr | sed 's/;/\t/g' > analysis/GEBA-I.krona
ktImportText -o analysis/GEBA-I.html analysis/GEBA-I.krona

1002个NCBI 拼装数据库物种分布图
taxonomy

数据分析来自DeepBiome数据挖掘团队: 2017-06-26

DeepBiome生物医学数据荟萃:PATRIC数据

DeepBiome生物医学数据荟萃:PATRIC数据

一、背景介绍

病原体系统资源整合中心(Pathosystems Resource Integration Center, PATRIC) 是由美国国家过敏与感染疾病研究所(National Institute of Allergy and Infectious Diseases, NIAID)资助的细菌生物信息资源中心,目前收录超过了10万个细菌基因组数据(截至 2017年6月20日,版本3.3.16, 搜录细菌基因组数字为 10,3791), 该数据集包含了Genbank、Refseq以及合作机构的丰富的基因组信息资源。

PATRIC对基因组通过RAST (https://en.wikipedia.org/wiki/MG-RAST) 进行注释,RAST 为美国微生物数据资源(National Microbial Pathogen Data Resource,NMPDR)团队研发的基因组注释平台, 提供基因组序列信息、蛋白质编码基因信息,rRNA以及tRNA基因信息、以及生物学途经、基因家族信息等,对广泛的基因组数据使用统一的注释系统进行规范,使得细菌基因组数据挖掘以及比较基因组变得容易。

有很多生物信息工具也开始基于PATRIC进行开发,比如FOCUS/FOCUS2SUPER-FOCUS 使用PATRIC 提供的基因组信息进行Metagenome数据分析。

PATRIC 菌株分类信息

PATRIC 菌株分类信息

大部分都是人源菌株(4.5万多株)、菌株来源最多的是美国(2.2万株),90%以上都是非万成图,当前高通量测序技术我们花费极小的代价就可以完成菌株测序,并且基因组测序(WGS)的成本已经低到可以作为菌株鉴定的常规武器。

二、数据处理

主要使用工具: axel 、lftp、tsv-utils-dlang、

  • 数据表生成

PATRIC提供关于基因组很丰富的信息,包括基因组序列信息、蛋白质编码序列信息、CDS 序列信息、基因位置文件GFF等信息,由于文件比较多,而且没有进行压缩,所有我们采用每个文件单独下载而不是通过FTP工具批量下载模式。

获取基因组列表信息:

lftp -c 'open ftp://ftp.patricbrc.org/patric2/genomes/; ls > ftp.txt'
grep -P "^d" ftp.txt | perl -ane 'print qq{$F[-1]\n}' >genomes.txt

  • 数据下载

通过统一下载接口 “patric-download” 可以执行重头下载或者补漏等功能,数据下载引擎可以选择 axel 或者 wget

Usage:
patric-download <genome_list> <type:fna|gff|ffn|faa|pathway|features.tab> <ftp>

  • 基因组指纹

对每一个下载的基因组构建Mash指纹,用于菌株鉴定。

patric-mash genome.txt genomes mash

  • 基因组拼装信息

基因组大小分布图

基因组大小分布图

基因个数分布图

基因个数分布图

  • 物种分布

通过PATRIC的API 获得了基因组的 metadata 信息,

PATRIC 数据集物种分布图

该数据由 97021 个基因组信息对应的 NCBI 物种分类信息汇总而成。

tabtk_subset metadata.tsv genome.txt 1 0 | cut -f4 | taxon-translate /biostack/database/taxonomy/ncbi.map - | nl | tabtk_bins - 2 | tabtk cut -r -f2,1 | sort -k1nr | sed 's/;/\t/g' >krona.txt
ktImportText -o taxonomy.html krona.txt

PATRIC收录了大量的病原微生物基因组信息其中前10个属基因组就占了 59,872 个基因组,约总量的60%。

数据分析来自DeepBiome数据挖掘团队: 2017-06-20

DeepBiome生物医学数据挖掘:NCTC3000

DeepBiome生物医学数据挖掘:NCTC3000数据

背景介绍:

NCTC 3000是 Public Health England、Pacific Biosciences 、Wellcome Trust Sanger Institute的一个合作项目,目的是完成3000个细菌菌株的测序工作,菌株来源于National Collection of Type Cultures(NCTC), 测序平台采用 Pacific Biosciences 的单分子实时测序技术(SMRT)。

截至2017年6月12日,共完成533个物种,1735个样本的测序工作,其中1136个样本采用了手动地拼装,89个菌株是自动化拼装。

值得注意的是NCTC 菌种库很多都没有参考基因组,NCTC 3000 给菌株鉴定提供了很好的参考信息。

相关链接:

Twitter: https://twitter.com/nctc_3000
项目目录:http://www.sanger.ac.uk/resources/downloads/bacteria/nctc/

数据处理:

  • 数据表生成

    curl http://www.sanger.ac.uk/resources/downloads/bacteria/nctc/ | nctc3000-table - > nctc3000.tsv

  • 数据下载

    nctc3000-download nctc3000.tsv ftp

根据表格显示实际基因组个数为1141, 其中 79 个为EMBL文件格式,1062个为gff文件格式。
为了获得对应每个基因组的基因组核酸序列、氨基酸序列、CDS序列及其基因编码格式信息, 现在需要将所有gff或者EMBL文件进行数据抽提。

本项目使用了 gargs、BioPerl、 Bedtools、Transeq、KronaTools 以及很多脚本完成数据的格式转换。

  • 格式转换

    nctc3000-parse nctc3000.tsv ftp data

  • mash指纹库构建

    nctc3000-mash nctc3000.tsv data fingerprint

  • 物种分布

    nctc3000-taxonomy nctc3000.tsv taxonomy

1735个基因组的物种分布图Krona样式展示如下:

 NCTC 1735个基因组的物种分布图

具体实现是使用了下面借个命令:

生成Krona文件

taxon-translate /biostack/database/taxonomy/ncbi.map taxonomy/metadata.tsv | tabtk_bins list.map 1 | tabtk cut -r -f2,1 | sed 's/;/\t/g' >taxonomy/krona.txt ;

导入Krona

ktImportText -o taxonomy/krona.html taxonomy/krona.txt;

首先通过ENA数据库检索每个基因组对应的Taxonomy信息,然后使用上述命令完成统计分析。

结论:

通过下载NCTC的基因组数据以及对应注释文件,完成的氨基酸序列、CDS序列的获取以及对生成基因组的指纹,用于菌株鉴定,对ENA的菌株信息进行关联获取了原始测序数据信息。

数据分析来自DeepBiome数据挖掘团队: 2017-06-13

Hello world!

Welcome to WordPress. This is your first post. Edit or delete it, then start writing!