BioInfo

来自Jack's Lab
2018年11月30日 (五) 12:25Comcat (讨论 | 贡献)的版本

跳转到: 导航, 搜索

目录

1 基础


2 简史

  • 第一个被完整测序的 DNA:噬菌体 ΦX174 (Escherichia phage phiX174),1975 年完成,环形单链 DNA (ssDNA),5386 bp (GenBank ID: J02482),编码 11 个蛋白质 (8 个必需)
  • 第一个被完整测序的动物 Virus DNA:SV40 virus [2],1977 年完成,环形双链的 DNA,5243 bp
  • pBR322,1978 年完成,4363 bp
  • 人类线粒体,1981 年,16.6 kb
  • λ 噬菌体,1982 年,48 502 bp,61 个基因(38个较为重要)
  • 第一个被完整测序的能独立生存的生物体 DNA:流感嗜血杆菌 (Haemophilu sinfluenzae),1995 年,1 830 140 bp, 1740 个基因
  • 1995 - 2001 大约 50 个细菌的基因组序列被测出,与此同时,更大一点的基因组陆续被测出:
    • 酵母 (12.1 Mbp)
    • 果蝇 (135.6 Mbp)
    • Caenorhabditis elegans (线虫 97.1 Mbp)
    • Arabidopsis thaliana (拟南芥,一种植物 118 Mbp)
    • 人类基因组 (3286 Mbp)



3 数据库

3.1 EMBL

European Molecular Biology Laboratory,欧洲分子生物学实验室,位于英国剑桥

http://www.ebi.ac.uk


3.2 GenBank

National Center for Biotechnology Information, NCBI,美国国家生物信息中心,隶属于美国国家医学图书馆,位于美国国家卫生研究院 (NIH) 内

https://www.ncbi.nlm.nih.gov


3.3 DDBJ

DNA Databank of Japan,日本 DNA 数据库

http://www.ddbj.nig.ac.jp


3.4 SWISS-PROT

由日内瓦大学医学生物化学系和欧洲生物信息学研究所 (EBI) 合作维护

蛋白质数据由 EMBL DNA 数据翻译而来,并经过检验和注释


3.5 PIR

由美国国家生物技术信息中心 (NCBI) 翻译自 GenBank 的 DNA 序列

根据注释质量分四个等级:PIR1 ~ PIR4, 等级逐步降低

http://pir.georgetown.edu


3.6 蛋白质结构数据库

实验获得的三维蛋白质结构均储存于 PDB。主要由 X 射线衍射和核磁共振 (NMR) 确定。http://www.rcsb.org/pdb

更多参考: http://muchong.com/html/200904/1306279.html


4 格式

4.1 FASTA

FASTA 格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示,且允许在序列前添加序列名及注释。

FASTA 文件以序列表示和序列作为一个基本单元,各行记录信息如下:

  • 第一行:以 ">" 开头的任意文字说明。用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性
  • 第二行:碱基序列。只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过 80 个字符

参考:https://en.wikipedia.org/wiki/FASTA_format


4.2 FASTQ

FASTQ 最初由 Sanger 开发,目的是将 FASTA 格式数据与质量数据放到一起,目前已经成为高通量测序结果的事实标准。

FASTQ 文件以四行为一个基本单元,并对应一条序列的测序信息,各行记录信息如下:

  • 第一行:序列标识以及相关的描述信息。以‘@’开头,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性
  • 第二行:碱基序列
  • 第三行:以‘+’开头,后面是序列标示符、描述信息,或者什么也不加
  • 第四行:质量信息,长度和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。

参考:https://en.wikipedia.org/wiki/FASTQ_format https://www.cnblogs.com/yahengwang/p/8973948.html


5 译码

https://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/index.cgi?chapter=cgencodes#SG11


6 参考









个人工具
名字空间

变换
操作
导航
工具箱