BioInfo

2018年11月30日 (五) 10:21的版本

第一个被完整测序的 DNA：噬菌体 ΦX174，1975 年完成，环形单链 DNA (ssDNA)，5386 bp (GenBank ID: J02482)，编码 11 个蛋白质（8 个必需）
第一个被完整测序的动物病毒 DNA：SV40 virus [2]，1977 年完成，环形双链的 DNA，5243 bp
pBR322，1978 年完成，4363 bp

FASTA 格式（又称为Pearson格式）是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示，且允许在序列前添加序列名及注释。

FASTA 文件以序列表示和序列作为一个基本单元，各行记录信息如下：

第一行：以 ">" 开头的任意文字说明。用于序列标记，为了保证后续分析软件能够区分每条序列，单个序列的标识必须具有唯一性
第二行：碱基序列。只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可，而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过 80 个字符

FASTQ 最初由 Sanger 开发，目的是将 FASTA 格式数据与质量数据放到一起，目前已经成为高通量测序结果的事实标准。

FASTQ 文件以四行为一个基本单元，并对应一条序列的测序信息，各行记录信息如下：

@@ 第5行： / 第5行： @@
 == 简史 ==
-* 第一个被完整测序的 DNA 分子：[http://www.bacteria.cn/html/2015/1462.html 噬菌体 ΦX174]，1975 年完成，环形单链 DNA (ssDNA)，5386 bp (GenBank ID: J02482)，编码 11 个蛋白质 （8 个必需）
+* 第一个被完整测序的 DNA：[http://www.bacteria.cn/html/2015/1462.html 噬菌体 ΦX174]，1975 年完成，环形单链 DNA (ssDNA)，5386 bp (GenBank ID: J02482)，编码 11 个蛋白质 （8 个必需）
-* [https://baike.baidu.com/item/SV40 SV40 virus] [[https://en.wikipedia.org/wiki/SV40 2]]，1977 年完成，5243 bp
+* 第一个被完整测序的动物病毒 DNA：[https://baike.baidu.com/item/SV40 SV40 virus] [[https://en.wikipedia.org/wiki/SV40 2]]，1977 年完成，环形双链的 DNA，5243 bp
 * pBR322，1978 年完成，4363 bp
 *