BioInfo

1 基础

DNA: A - T, C - G
RNA: A - U, C - G

2 简史

第一个被完整测序的 DNA：噬菌体 ΦX174 (Escherichia phage phiX174)，1975 年完成，环形单链 DNA (ssDNA)，5386 bp (GenBank ID: J02482)，编码 11 个蛋白质（8 个必需）
第一个被完整测序的动物 Virus DNA：SV40 virus [2]，1977 年完成，环形双链的 DNA，5243 bp
pBR322，1978 年完成，4363 bp
人类线粒体，1981 年，16.6 kb
λ 噬菌体，1982 年，48 502 bp，61 个基因（38个较为重要）
第一个被完整测序的能独立生存的生物体 DNA：流感嗜血杆菌 (Haemophilu sinfluenzae)，1995 年，1 830 140 bp, 1740 个基因
1995 - 2001 大约 50 个细菌的基因组序列被测出，与此同时，更大一点的基因组陆续被测出：
- 酵母 (12.1 Mbp)
- Drosophila melanogaster (fruit fly) 果蝇 (137.688 Mbp，表达 30493 个蛋白)
- Caenorhabditis elegans （线虫 101.169 Mbp，表达 28313 个蛋白）
- Arabidopsis thaliana （拟南芥，一种植物 119.148 Mbp，表达 39551 个蛋白）
- 人类基因组 (2995.74 Mbp, 表达 119294 个蛋白)

3 数据库

3.1 EMBL

European Molecular Biology Laboratory，欧洲分子生物学实验室，位于英国剑桥

http://www.ebi.ac.uk

3.2 GenBank

National Center for Biotechnology Information, NCBI，美国国家生物信息中心，隶属于美国国家医学图书馆，位于美国国家卫生研究院 (NIH) 内

https://www.ncbi.nlm.nih.gov

3.3 DDBJ

DNA Databank of Japan，日本 DNA 数据库

http://www.ddbj.nig.ac.jp

3.4 SWISS-PROT

由日内瓦大学医学生物化学系和欧洲生物信息学研究所 (EBI) 合作维护

蛋白质数据由 EMBL DNA 数据翻译而来，并经过检验和注释

3.5 PIR

由美国国家生物技术信息中心 (NCBI) 翻译自 GenBank 的 DNA 序列

根据注释质量分四个等级：PIR1 ~ PIR4，等级逐步降低

http://pir.georgetown.edu

3.6 蛋白质结构数据库

实验获得的三维蛋白质结构均储存于 PDB。主要由 X 射线衍射和核磁共振 (NMR) 确定。http://www.rcsb.org/pdb

4 格式

4.1 FASTA

FASTA 格式（又称为Pearson格式）是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示，且允许在序列前添加序列名及注释。

FASTA 文件以序列表示和序列作为一个基本单元，各行记录信息如下：

第一行：以 ">" 开头的任意文字说明。用于序列标记，为了保证后续分析软件能够区分每条序列，单个序列的标识必须具有唯一性
第二行：碱基序列。只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可，而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过 80 个字符

参考：https://en.wikipedia.org/wiki/FASTA_format

4.2 FASTQ

FASTQ 最初由 Sanger 开发，目的是将 FASTA 格式数据与质量数据放到一起，目前已经成为高通量测序结果的事实标准。

FASTQ 文件以四行为一个基本单元，并对应一条序列的测序信息，各行记录信息如下：

第一行：序列标识以及相关的描述信息。以‘@’开头，为了保证后续分析软件能够区分每条序列，单个序列的标识必须具有唯一性
第二行：碱基序列
第三行：以‘+’开头，后面是序列标示符、描述信息，或者什么也不加
第四行：质量信息，长度和第二行的序列相对应，每一个序列都有一个质量评分，根据评分体系的不同，每个字符的含义表示的数字也不相同。

参考：https://en.wikipedia.org/wiki/FASTQ_format https://www.cnblogs.com/yahengwang/p/8973948.html

5 译码

起始密码子：AUG （即 atg，编码为 M，甲硫氨酸）
终止密码子：UAA (taa)、UAG (tag)、UGA (tga)，这些都不表达为氨基酸

生物种类不同，基因起始密码子也不同，详情参阅：https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c#SG11

EMBL/GenBank 文本数据中会标注基因解码蛋白质所用之 table，比如：X64011 之 /transl_table=11

ID   X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP.
XX
AC   X64011; S78972;
XX
DT   28-APR-1992 (Rel. 31, Created)
DT   26-SEP-2006 (Rel. 89, Last updated, Version 8)
XX
DE   Listeria ivanovii sod gene for superoxide dismutase
XX
KW   sod gene; superoxide dismutase.
XX
OS   Listeria ivanovii
OC   Bacteria; Firmicutes; Bacilli; Bacillales; Listeriaceae; Listeria.
XX
RN   [1]
RX   PUBMED; 1736100.
RA   Haas A., Goebel W.;
RT   "Cloning of a superoxide dismutase gene from Listeria ivanovii by
RT   functional complementation in Escherichia coli and characterization of the
RT   gene product";
RL   Mol. Gen. Genet. 231(2):313-322(1992).
XX
RN   [2]
RP   1-756
RA   Kreft J.;
RT   ;
RL   Submitted (21-APR-1992) to the INSDC.
RL   J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am
RL   Hubland, 8700 Wuerzburg, FRG
XX
DR   MD5; 3aef81a22cd6d78af1c13413d452aa45.
DR   EuropePMC; PMC2739203; 19682364.
DR   StrainInfo; 14848; 1.
XX
FH   Key             Location/Qualifiers
FH
FT   source          1..756
FT                   /organism="Listeria ivanovii"
FT                   /strain="ATCC 19119"
FT                   /mol_type="genomic DNA"
FT                   /db_xref="taxon:1638"
FT   regulatory      95..100
FT                   /gene="sod"
FT                   /regulatory_class="ribosome_binding_site"
FT   CDS             109..717
FT                   /transl_table=11
FT                   /gene="sod"
FT                   /product="superoxide dismutase"
FT                   /EC_number="1.15.1.1"
FT                   /db_xref="GOA:P28763"
FT                   /db_xref="InterPro:IPR001189"
FT                   /db_xref="InterPro:IPR019831"
FT                   /db_xref="InterPro:IPR019832"
FT                   /db_xref="InterPro:IPR019833"
FT                   /db_xref="InterPro:IPR036314"
FT                   /db_xref="InterPro:IPR036324"
FT                   /db_xref="UniProtKB/Swiss-Prot:P28763"
FT                   /protein_id="CAA45406.1"
FT                   /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVSG
FT                   HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAA
FT                   IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGL
FT                   DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"
FT   regulatory      723..746
FT                   /gene="sod"
FT                   /regulatory_class="terminator"
XX
SQ   Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other;
     cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat        60
     gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa       120
     ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg       180
     gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca       240
     ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt       300
     cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta       360
     ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca       420
     atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg       480
     gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt       540
     tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat       600
     gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca       660
     ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta       720
     tcgaaaggct cacttaggtg ggtcttttta tttcta                                 756
//

靠近很多基因的起点的 TATAA 序列
人染色体末端（端粒）中的重复序列 TTAGGG

6 参考

https://en.wikipedia.org/wiki/Amino_acid

家犬基因数据

生物安全四级实验室（BSL-4）防护区范围及气密性要求的国内外对比