BioInfo
(→译码) |
(→译码) |
||
第115行: | 第115行: | ||
− | 生物种类不同,基因起始密码子也不同,详情参阅:https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi? | + | 生物种类不同,基因起始密码子也不同,详情参阅:https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?chapter=tgencodes#SG11 |
EMBL/GenBank 文本数据中会标注基因解码蛋白质所用之 table,比如:X64011 之 /transl_table=11 | EMBL/GenBank 文本数据中会标注基因解码蛋白质所用之 table,比如:X64011 之 /transl_table=11 |
2018年11月30日 (五) 16:17的版本
目录 |
1 基础
- DNA: A - T, C - G
- RNA: A - U, C - G
2 简史
- 第一个被完整测序的 DNA:噬菌体 ΦX174 (Escherichia phage phiX174),1975 年完成,环形单链 DNA (ssDNA),5386 bp (GenBank ID: J02482),编码 11 个蛋白质 (8 个必需)
- 第一个被完整测序的动物 Virus DNA:SV40 virus [2],1977 年完成,环形双链的 DNA,5243 bp
- pBR322,1978 年完成,4363 bp
- 人类线粒体,1981 年,16.6 kb
- λ 噬菌体,1982 年,48 502 bp,61 个基因(38个较为重要)
- 第一个被完整测序的能独立生存的生物体 DNA:流感嗜血杆菌 (Haemophilu sinfluenzae),1995 年,1 830 140 bp, 1740 个基因
- 1995 - 2001 大约 50 个细菌的基因组序列被测出,与此同时,更大一点的基因组陆续被测出:
- 酵母 (12.1 Mbp)
- Drosophila melanogaster (fruit fly) 果蝇 (137.688 Mbp,表达 30493 个蛋白)
- Caenorhabditis elegans (线虫 101.169 Mbp,表达 28313 个蛋白)
- Arabidopsis thaliana (拟南芥,一种植物 119.148 Mbp,表达 39551 个蛋白)
- 人类基因组 (2995.74 Mbp, 表达 119294 个蛋白)
3 数据库
3.1 EMBL
European Molecular Biology Laboratory,欧洲分子生物学实验室,位于英国剑桥
3.2 GenBank
National Center for Biotechnology Information, NCBI,美国国家生物信息中心,隶属于美国国家医学图书馆,位于美国国家卫生研究院 (NIH) 内
3.3 DDBJ
DNA Databank of Japan,日本 DNA 数据库
3.4 SWISS-PROT
由日内瓦大学医学生物化学系和欧洲生物信息学研究所 (EBI) 合作维护
蛋白质数据由 EMBL DNA 数据翻译而来,并经过检验和注释
- http://www.expasy.ch/sprot
- https://www.ebi.ac.uk/swissprot
- https://www.ebi.ac.uk/proteins/api/doc/index.html
3.5 PIR
由美国国家生物技术信息中心 (NCBI) 翻译自 GenBank 的 DNA 序列
根据注释质量分四个等级:PIR1 ~ PIR4, 等级逐步降低
3.6 蛋白质结构数据库
实验获得的三维蛋白质结构均储存于 PDB。主要由 X 射线衍射和核磁共振 (NMR) 确定。http://www.rcsb.org/pdb
更多参考: http://muchong.com/html/200904/1306279.html
4 格式
4.1 FASTA
FASTA 格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示,且允许在序列前添加序列名及注释。
FASTA 文件以序列表示和序列作为一个基本单元,各行记录信息如下:
- 第一行:以 ">" 开头的任意文字说明。用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性
- 第二行:碱基序列。只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过 80 个字符
参考:https://en.wikipedia.org/wiki/FASTA_format
4.2 FASTQ
FASTQ 最初由 Sanger 开发,目的是将 FASTA 格式数据与质量数据放到一起,目前已经成为高通量测序结果的事实标准。
FASTQ 文件以四行为一个基本单元,并对应一条序列的测序信息,各行记录信息如下:
- 第一行:序列标识以及相关的描述信息。以‘@’开头,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性
- 第二行:碱基序列
- 第三行:以‘+’开头,后面是序列标示符、描述信息,或者什么也不加
- 第四行:质量信息,长度和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。
参考:https://en.wikipedia.org/wiki/FASTQ_format https://www.cnblogs.com/yahengwang/p/8973948.html
5 译码
- 起始密码子:AUG (即 atg,编码为 M,甲硫氨酸)
- 终止密码子:UAA (taa)、UAG (tag)、UGA (tga),这些都不表达为氨基酸
生物种类不同,基因起始密码子也不同,详情参阅:https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?chapter=tgencodes#SG11
EMBL/GenBank 文本数据中会标注基因解码蛋白质所用之 table,比如:X64011 之 /transl_table=11
ID X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP. XX AC X64011; S78972; XX DT 28-APR-1992 (Rel. 31, Created) DT 26-SEP-2006 (Rel. 89, Last updated, Version 8) XX DE Listeria ivanovii sod gene for superoxide dismutase XX KW sod gene; superoxide dismutase. XX OS Listeria ivanovii OC Bacteria; Firmicutes; Bacilli; Bacillales; Listeriaceae; Listeria. XX RN [1] RX PUBMED; 1736100. RA Haas A., Goebel W.; RT "Cloning of a superoxide dismutase gene from Listeria ivanovii by RT functional complementation in Escherichia coli and characterization of the RT gene product"; RL Mol. Gen. Genet. 231(2):313-322(1992). XX RN [2] RP 1-756 RA Kreft J.; RT ; RL Submitted (21-APR-1992) to the INSDC. RL J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am RL Hubland, 8700 Wuerzburg, FRG XX DR MD5; 3aef81a22cd6d78af1c13413d452aa45. DR EuropePMC; PMC2739203; 19682364. DR StrainInfo; 14848; 1. XX FH Key Location/Qualifiers FH FT source 1..756 FT /organism="Listeria ivanovii" FT /strain="ATCC 19119" FT /mol_type="genomic DNA" FT /db_xref="taxon:1638" FT regulatory 95..100 FT /gene="sod" FT /regulatory_class="ribosome_binding_site" FT CDS 109..717 FT /transl_table=11 FT /gene="sod" FT /product="superoxide dismutase" FT /EC_number="1.15.1.1" FT /db_xref="GOA:P28763" FT /db_xref="InterPro:IPR001189" FT /db_xref="InterPro:IPR019831" FT /db_xref="InterPro:IPR019832" FT /db_xref="InterPro:IPR019833" FT /db_xref="InterPro:IPR036314" FT /db_xref="InterPro:IPR036324" FT /db_xref="UniProtKB/Swiss-Prot:P28763" FT /protein_id="CAA45406.1" FT /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVSG FT HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAA FT IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGL FT DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK" FT regulatory 723..746 FT /gene="sod" FT /regulatory_class="terminator" XX SQ Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other; cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 60 gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa 120 ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg 180 gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca 240 ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt 300 cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta 360 ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca 420 atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg 480 gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt 540 tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat 600 gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca 660 ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta 720 tcgaaaggct cacttaggtg ggtcttttta tttcta 756 //
- 靠近很多基因的起点的 TATAA 序列
- 人染色体末端(端粒)中的重复序列 TTAGGG
6 参考