查看BioInfo的源代码

== 基础 ==

<br>

== 简史 ==

* 第一个被完整测序的 DNA：[http://www.bacteria.cn/html/2015/1462.html 噬菌体 ΦX174] (Escherichia phage phiX174)，1975 年完成，环形单链 DNA (ssDNA)，5386 bp (GenBank ID: J02482)，编码 11 个蛋白质 （8 个必需）
* 第一个被完整测序的动物 Virus DNA：[https://baike.baidu.com/item/SV40 SV40 virus] [[https://en.wikipedia.org/wiki/SV40 2]]，1977 年完成，环形双链的 DNA，5243 bp
* pBR322，1978 年完成，4363 bp
* 人类线粒体，1981 年，16.6 kb
* [https://baike.baidu.com/item/%CE%BB%E5%99%AC%E8%8F%8C%E4%BD%93 λ 噬菌体]，1982 年，48 502 bp，61 个基因（38个较为重要）
* 第一个被完整测序的能独立生存的生物体 DNA：流感嗜血杆菌 (Haemophilu sinfluenzae)，1995 年，1 830 140 bp, 1740 个基因
* 1995 - 2001 大约 50 个细菌的基因组序列被测出，与此同时，更大一点的基因组，如酵母 (12.1 Mbp)、果蝇 (135.6 Mbp)、Caenorhabditis elegans （线虫 97.1 Mbp），Arabidopsis thaliana （拟南芥，一种植物 118 Mbp），以及人类基因组 (3286 Mbp) 陆续被测出 

<br><br>

== 数据库 ==

=== EMBL ===

European Molecular Biology Laboratory，欧洲分子生物学实验室，位于英国剑桥

http://www.ebi.ac.uk

<br>

=== GenBank ===

National Center for Biotechnology Information, NCBI，美国国家生物信息中心，隶属于美国国家医学图书馆，位于美国国家卫生研究院 (NIH) 内

https://www.ncbi.nlm.nih.gov

<br>

=== DDBJ ===

DNA Databank of Japan，日本 DNA 数据库

http://www.ddbj.nig.ac.jp

<br>

=== SWISS-PROT ===

由日内瓦大学医学生物化学系和欧洲生物信息学研究所 (EBI) 合作维护

蛋白质数据由 EMBL DNA 数据翻译而来，并经过检验和注释 

* https://www.ebi.ac.uk/swissprot
* https://www.ebi.ac.uk/proteins/api/doc/index.html

<br>

=== PIR ===

由美国国家生物技术信息中心 (NCBI) 翻译自 GenBank 的 DNA 序列

根据注释质量分四个等级：PIR1 ~ PIR4， 等级逐步降低

http://pir.georgetown.edu

<br>


== 格式 ==

=== FASTA ===

FASTA 格式（又称为Pearson格式）是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示，且允许在序列前添加序列名及注释。

FASTA 文件以序列表示和序列作为一个基本单元，各行记录信息如下：

* 第一行：以 ">" 开头的任意文字说明。用于序列标记，为了保证后续分析软件能够区分每条序列，单个序列的标识必须具有唯一性
* 第二行：碱基序列。只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可，而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过 80 个字符

<br>

=== FASTQ ===

FASTQ 最初由 Sanger 开发，目的是将 FASTA 格式数据与质量数据放到一起，目前已经成为高通量测序结果的事实标准。

FASTQ 文件以四行为一个基本单元，并对应一条序列的测序信息，各行记录信息如下：

* 第一行：序列标识以及相关的描述信息。以‘@’开头，为了保证后续分析软件能够区分每条序列，单个序列的标识必须具有唯一性
* 第二行：碱基序列
* 第三行：以‘+’开头，后面是序列标示符、描述信息，或者什么也不加
* 第四行：质量信息，长度和第二行的序列相对应，每一个序列都有一个质量评分，根据评分体系的不同，每个字符的含义表示的数字也不相同。

<br>

== 参考 ==

* [https://www.guokr.com/article/440343/ 人类基因组最新测序结果 2015]
* [https://www.guokr.com/article/441301/ 首个人工合成的细菌 - 丝状支原体 2016]
* [https://www.guokr.com/article/442119/ 人工合成酵母基因组项目（Sc 2.0项目） 2017]


* [https://www.guokr.com/article/441234/ 水熊虫“睡美人”：冰箱沉睡30年后依然苏醒]
* [https://www.guokr.com/article/438146/ “杀不死”的水熊虫是何方神圣？]
* [https://www.guokr.com/article/441017/ 世界上最顽强动物的基因组，究竟长啥样？]
* [https://www.guokr.com/article/441769/ “防辐射”蛋白：水熊虫的生存利器]


* [https://www.ncbi.nlm.nih.gov/genome?term=canis%20lupus%20familiaris 家犬基因数据]

* [http://www.bacteria.cn/html/2018/2275.html 生物安全四级实验室（BSL-4）防护区范围及气密性要求的国内外对比]

<br><br>
<br><br>
<br><br>