DeepBiome生物医学数据挖掘:NCTC3000数据
背景介绍:
NCTC 3000是 Public Health England、Pacific Biosciences 、Wellcome Trust Sanger Institute的一个合作项目,目的是完成3000个细菌菌株的测序工作,菌株来源于National Collection of Type Cultures(NCTC), 测序平台采用 Pacific Biosciences 的单分子实时测序技术(SMRT)。
截至2017年6月12日,共完成533个物种,1735个样本的测序工作,其中1136个样本采用了手动地拼装,89个菌株是自动化拼装。
值得注意的是NCTC 菌种库很多都没有参考基因组,NCTC 3000 给菌株鉴定提供了很好的参考信息。
相关链接:
Twitter: https://twitter.com/nctc_3000 项目目录:http://www.sanger.ac.uk/resources/downloads/bacteria/nctc/
数据处理:
数据表生成
curl http://www.sanger.ac.uk/resources/downloads/bacteria/nctc/ | nctc3000-table – > nctc3000.tsv
数据下载
nctc3000-download nctc3000.tsv ftp
根据表格显示实际基因组个数为1141, 其中 79 个为EMBL文件格式,1062个为gff文件格式。 为了获得对应每个基因组的基因组核酸序列、氨基酸序列、CDS序列及其基因编码格式信息, 现在需要将所有gff或者EMBL文件进行数据抽提。
本项目使用了 gargs、BioPerl、 Bedtools、Transeq、KronaTools 以及很多脚本完成数据的格式转换。
格式转换
nctc3000-parse nctc3000.tsv […]