Categories

Recent Posts

DeepBiome生物医学数据荟萃:PATRIC数据

一、背景介绍

病原体系统资源整合中心(Pathosystems Resource Integration Center, PATRIC) 是由美国国家过敏与感染疾病研究所(National Institute of Allergy and Infectious Diseases, NIAID)资助的细菌生物信息资源中心,目前收录超过了10万个细菌基因组数据(截至 2017年6月20日,版本3.3.16, 搜录细菌基因组数字为 10,3791), 该数据集包含了Genbank、Refseq以及合作机构的丰富的基因组信息资源。

PATRIC对基因组通过RAST (https://en.wikipedia.org/wiki/MG-RAST) 进行注释,RAST 为美国微生物数据资源(National Microbial Pathogen Data Resource,NMPDR)团队研发的基因组注释平台, 提供基因组序列信息、蛋白质编码基因信息,rRNA以及tRNA基因信息、以及生物学途经、基因家族信息等,对广泛的基因组数据使用统一的注释系统进行规范,使得细菌基因组数据挖掘以及比较基因组变得容易。

有很多生物信息工具也开始基于PATRIC进行开发,比如FOCUS/FOCUS2SUPER-FOCUS 使用PATRIC 提供的基因组信息进行Metagenome数据分析。

PATRIC 菌株分类信息

PATRIC 菌株分类信息

大部分都是人源菌株(4.5万多株)、菌株来源最多的是美国(2.2万株),90%以上都是非万成图,当前高通量测序技术我们花费极小的代价就可以完成菌株测序,并且基因组测序(WGS)的成本已经低到可以作为菌株鉴定的常规武器。

二、数据处理

主要使用工具: axel 、lftp、tsv-utils-dlang、

PATRIC提供关于基因组很丰富的信息,包括基因组序列信息、蛋白质编码序列信息、CDS 序列信息、基因位置文件GFF等信息,由于文件比较多,而且没有进行压缩,所有我们采用每个文件单独下载而不是通过FTP工具批量下载模式。

获取基因组列表信息:

lftp -c 'open ftp://ftp.patricbrc.org/patric2/genomes/; ls > ftp.txt'
grep -P "^d" ftp.txt | perl -ane 'print qq{$F[-1]\n}' >genomes.txt

通过统一下载接口 “patric-download” 可以执行重头下载或者补漏等功能,数据下载引擎可以选择 axel 或者 wget

Usage:
patric-download <genome_list> <type:fna|gff|ffn|faa|pathway|features.tab> <ftp>

对每一个下载的基因组构建Mash指纹,用于菌株鉴定。

patric-mash genome.txt genomes mash

基因组大小分布图

基因组大小分布图

基因个数分布图

基因个数分布图

通过PATRIC的API 获得了基因组的 metadata 信息,

PATRIC 数据集物种分布图

该数据由 97021 个基因组信息对应的 NCBI 物种分类信息汇总而成。

tabtk_subset metadata.tsv genome.txt 1 0 | cut -f4 | taxon-translate /biostack/database/taxonomy/ncbi.map - | nl | tabtk_bins - 2 | tabtk cut -r -f2,1 | sort -k1nr | sed 's/;/\t/g' >krona.txt
ktImportText -o taxonomy.html krona.txt

PATRIC收录了大量的病原微生物基因组信息其中前10个属基因组就占了 59,872 个基因组,约总量的60%。

数据分析来自DeepBiome数据挖掘团队: 2017-06-20

June 20th, 2017 | Category: Uncategorized

Leave a Reply

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

  

  

  

About

Meta

June 2017
M T W T F S S
« Nov    
 1234
567891011
12131415161718
19202122232425
2627282930  

Blogrolls

Copyright © 2020 deepbiome.org - All Rights Reserved
Powered by WordPress & Atahualpa