BioInfo
来自Jack's Lab
(版本间的差异)
(→简史) |
(→简史) |
||
第8行: | 第8行: | ||
* 第一个被完整测序的动物病毒 DNA:[https://baike.baidu.com/item/SV40 SV40 virus] [[https://en.wikipedia.org/wiki/SV40 2]],1977 年完成,环形双链的 DNA,5243 bp | * 第一个被完整测序的动物病毒 DNA:[https://baike.baidu.com/item/SV40 SV40 virus] [[https://en.wikipedia.org/wiki/SV40 2]],1977 年完成,环形双链的 DNA,5243 bp | ||
* pBR322,1978 年完成,4363 bp | * pBR322,1978 年完成,4363 bp | ||
− | * | + | * 人类线粒体,1981 年,16.6 kb |
+ | * [https://baike.baidu.com/item/%CE%BB%E5%99%AC%E8%8F%8C%E4%BD%93 λ 噬菌体],1982 年,49 kb,61 个基因(38个较为重要) | ||
<br><br> | <br><br> |
2018年11月30日 (五) 10:33的版本
目录 |
1 基础
2 简史
- 第一个被完整测序的 DNA:噬菌体 ΦX174,1975 年完成,环形单链 DNA (ssDNA),5386 bp (GenBank ID: J02482),编码 11 个蛋白质 (8 个必需)
- 第一个被完整测序的动物病毒 DNA:SV40 virus [2],1977 年完成,环形双链的 DNA,5243 bp
- pBR322,1978 年完成,4363 bp
- 人类线粒体,1981 年,16.6 kb
- λ 噬菌体,1982 年,49 kb,61 个基因(38个较为重要)
3 格式
3.1 FASTA
FASTA 格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示,且允许在序列前添加序列名及注释。
FASTA 文件以序列表示和序列作为一个基本单元,各行记录信息如下:
- 第一行:以 ">" 开头的任意文字说明。用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性
- 第二行:碱基序列。只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过 80 个字符
3.2 FASTQ
FASTQ 最初由 Sanger 开发,目的是将 FASTA 格式数据与质量数据放到一起,目前已经成为高通量测序结果的事实标准。
FASTQ 文件以四行为一个基本单元,并对应一条序列的测序信息,各行记录信息如下:
- 第一行:序列标识以及相关的描述信息。以‘@’开头,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性
- 第二行:碱基序列
- 第三行:以‘+’开头,后面是序列标示符、描述信息,或者什么也不加
- 第四行:质量信息,长度和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。
4 参考