Categories

Recent Posts

DeepBiome生物医学数据挖掘:NCTC3000数据

背景介绍:

NCTC 3000是 Public Health England、Pacific Biosciences 、Wellcome Trust Sanger Institute的一个合作项目,目的是完成3000个细菌菌株的测序工作,菌株来源于National Collection of Type Cultures(NCTC), 测序平台采用 Pacific Biosciences 的单分子实时测序技术(SMRT)。

截至2017年6月12日,共完成533个物种,1735个样本的测序工作,其中1136个样本采用了手动地拼装,89个菌株是自动化拼装。

值得注意的是NCTC 菌种库很多都没有参考基因组,NCTC 3000 给菌株鉴定提供了很好的参考信息。

相关链接:

Twitter: https://twitter.com/nctc_3000
项目目录:http://www.sanger.ac.uk/resources/downloads/bacteria/nctc/

数据处理:

根据表格显示实际基因组个数为1141, 其中 79 个为EMBL文件格式,1062个为gff文件格式。
为了获得对应每个基因组的基因组核酸序列、氨基酸序列、CDS序列及其基因编码格式信息, 现在需要将所有gff或者EMBL文件进行数据抽提。

本项目使用了 gargs、BioPerl、 Bedtools、Transeq、KronaTools 以及很多脚本完成数据的格式转换。

1735个基因组的物种分布图Krona样式展示如下:

 NCTC 1735个基因组的物种分布图

具体实现是使用了下面借个命令:

生成Krona文件

taxon-translate /biostack/database/taxonomy/ncbi.map taxonomy/metadata.tsv | tabtk_bins list.map 1 | tabtk cut -r -f2,1 | sed 's/;/\t/g' >taxonomy/krona.txt ;

导入Krona

ktImportText -o taxonomy/krona.html taxonomy/krona.txt;

首先通过ENA数据库检索每个基因组对应的Taxonomy信息,然后使用上述命令完成统计分析。

结论:

通过下载NCTC的基因组数据以及对应注释文件,完成的氨基酸序列、CDS序列的获取以及对生成基因组的指纹,用于菌株鉴定,对ENA的菌株信息进行关联获取了原始测序数据信息。

数据分析来自DeepBiome数据挖掘团队: 2017-06-13

June 13th, 2017 | Category: Uncategorized

Leave a Reply

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

  

  

  

About

Meta

June 2017
M T W T F S S
« Nov    
 1234
567891011
12131415161718
19202122232425
2627282930  

Blogrolls

Copyright © 2020 deepbiome.org - All Rights Reserved
Powered by WordPress & Atahualpa