BioInfo

来自Jack's Lab
(版本间的差异)
跳转到: 导航, 搜索
(参考)
(参考)
第335行: 第335行:
  
 
* https://en.wikipedia.org/wiki/Amino_acid
 
* https://en.wikipedia.org/wiki/Amino_acid
* https://en.wikipedia.org/wiki/CD4
+
* https://en.wikipedia.org/wiki/CD4 Stadhouders R, Lubberts E, Hendriks RW. A cellular and molecular view of T helper 17 cell plasticity in autoimmunity. J Autoimmun. 2018 Feb
  
  

2018年12月4日 (二) 15:47的版本

目录

1 基础

基因 (Gene):负载特定生物遗传信息的 DNA 分子片段,在一定条件下能够表达这种遗传信息,产生特定生理功能。按功能分类,可分为结构基因和调控基因。

  • 结构基因可被转录成信使 RNA (mRNA),并进而转译为多肽链(即:蛋白质)。基因转译为蛋白的过程称为基因的表达
  • 调控基因是指某些可调节、控制结构基因表达的基因

在 DNA 链上,由蛋白质合成的起始密码子开始,到终止密码子为止的一个连续编码序列称为一个开放阅读框 (Open Reading Frame, ORF)

结构基因多含有插入序列,除了细菌和病毒的 DNA 中的 ORF 是连续的,包括人类在内的真核生物的大部分结构基因皆为断裂基因,即其编码序列在 DNA 分子上是不连续的,或被插入序列隔开。

断裂基因被转录成前体 mRNA,经过剪切过程,切除其中非编码序列(即内含子,Introns),再将编码序列(即外显子,Exons)连接成成熟 mRNA,并翻译成蛋白质


假基因是与功能性基因密切相关的 DNA 序列,但由于缺失、插入和无义突变而失去阅读框,从而不能编码为蛋白质


  • DNA: A - T, C - G
  • RNA: A - U, C - G


有关具体基因的表达,可以查询: Expression Atlas An open science resource that gives users a powerful way to find information about gene and protein expression across species and biological conditions such as different tissues, cell types, developmental stages and diseases among others


2 简史

  • 第一个被完整测序的 DNA:噬菌体 ΦX174 (Escherichia phage phiX174),1975 年完成,环形单链 DNA (ssDNA),5386 bp (GenBank ID: J02482),编码 11 个蛋白质 (8 个必需)
  • 第一个被完整测序的动物 Virus DNA:SV40 virus [2],1977 年完成,环形双链的 DNA,5243 bp
  • pBR322,1978 年完成,4363 bp
  • 人类线粒体,1981 年,16.6 kb
  • λ 噬菌体,1982 年,48 502 bp,61 个基因(38个较为重要)
  • 第一个被完整测序的能独立生存的生物体 DNA:流感嗜血杆菌 (Haemophilu sinfluenzae),1995 年,1 830 140 bp, 1740 个基因
  • 1995 - 2001 大约 50 个细菌的基因组序列被测出,与此同时,更大一点的基因组陆续被测出:



3 数据库

3.1 EMBL

European Molecular Biology Laboratory,欧洲分子生物学实验室,位于英国剑桥

http://www.ebi.ac.uk


3.2 GenBank

National Center for Biotechnology Information, NCBI,美国国家生物信息中心,隶属于美国国家医学图书馆,位于美国国家卫生研究院 (NIH) 内

https://www.ncbi.nlm.nih.gov


3.3 DDBJ

DNA Databank of Japan,日本 DNA 数据库

http://www.ddbj.nig.ac.jp


3.4 SWISS-PROT

由日内瓦大学医学生物化学系和欧洲生物信息学研究所 (EBI) 合作维护

蛋白质数据由 EMBL DNA 数据翻译而来,并经过检验和注释


3.5 PIR

由美国国家生物技术信息中心 (NCBI) 翻译自 GenBank 的 DNA 序列

根据注释质量分四个等级:PIR1 ~ PIR4, 等级逐步降低

http://pir.georgetown.edu


3.6 蛋白质结构数据库

实验获得的三维蛋白质结构均储存于 PDB。主要由 X 射线衍射和核磁共振 (NMR) 确定。http://www.rcsb.org/pdb

更多参考: http://muchong.com/html/200904/1306279.html


4 格式

4.1 FASTA

FASTA 格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示,且允许在序列前添加序列名及注释。

FASTA 文件以序列表示和序列作为一个基本单元,各行记录信息如下:

  • 第一行:以 ">" 开头的任意文字说明。用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性
  • 第二行:碱基序列。只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过 80 个字符

参考:https://en.wikipedia.org/wiki/FASTA_format


4.2 FASTQ

FASTQ 最初由 Sanger 开发,目的是将 FASTA 格式数据与质量数据放到一起,目前已经成为高通量测序结果的事实标准。

FASTQ 文件以四行为一个基本单元,并对应一条序列的测序信息,各行记录信息如下:

  • 第一行:序列标识以及相关的描述信息。以‘@’开头,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性
  • 第二行:碱基序列
  • 第三行:以‘+’开头,后面是序列标示符、描述信息,或者什么也不加
  • 第四行:质量信息,长度和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。

参考:https://en.wikipedia.org/wiki/FASTQ_format https://www.cnblogs.com/yahengwang/p/8973948.html


4.3 EMBL

以文献:《利用大肠杆菌中的功能互补克隆伊维斯特氏菌超氧化物歧化酶基因及基因产物的表征》提到的超氧化物歧化酶基因 (superoxide dismutase gene)为例:

ID   X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP.
XX
AC   X64011; S78972;
XX
DT   28-APR-1992 (Rel. 31, Created)
DT   26-SEP-2006 (Rel. 89, Last updated, Version 8)
XX
DE   Listeria ivanovii sod gene for superoxide dismutase
XX
KW   sod gene; superoxide dismutase.
XX
OS   Listeria ivanovii
OC   Bacteria; Firmicutes; Bacilli; Bacillales; Listeriaceae; Listeria.
XX
RN   [1]
RX   PUBMED; 1736100.
RA   Haas A., Goebel W.;
RT   "Cloning of a superoxide dismutase gene from Listeria ivanovii by
RT   functional complementation in Escherichia coli and characterization of the
RT   gene product";
RL   Mol. Gen. Genet. 231(2):313-322(1992).
XX
RN   [2]
RP   1-756
RA   Kreft J.;
RT   ;
RL   Submitted (21-APR-1992) to the INSDC.
RL   J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am
RL   Hubland, 8700 Wuerzburg, FRG
XX
DR   MD5; 3aef81a22cd6d78af1c13413d452aa45.
DR   EuropePMC; PMC2739203; 19682364.
DR   StrainInfo; 14848; 1.
XX
FH   Key             Location/Qualifiers
FH
FT   source          1..756
FT                   /organism="Listeria ivanovii"
FT                   /strain="ATCC 19119"
FT                   /mol_type="genomic DNA"
FT                   /db_xref="taxon:1638"
FT   regulatory      95..100
FT                   /gene="sod"
FT                   /regulatory_class="ribosome_binding_site"
FT   CDS             109..717
FT                   /transl_table=11
FT                   /gene="sod"
FT                   /product="superoxide dismutase"
FT                   /EC_number="1.15.1.1"
FT                   /db_xref="GOA:P28763"
FT                   /db_xref="InterPro:IPR001189"
FT                   /db_xref="InterPro:IPR019831"
FT                   /db_xref="InterPro:IPR019832"
FT                   /db_xref="InterPro:IPR019833"
FT                   /db_xref="InterPro:IPR036314"
FT                   /db_xref="InterPro:IPR036324"
FT                   /db_xref="UniProtKB/Swiss-Prot:P28763"
FT                   /protein_id="CAA45406.1"
FT                   /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVSG
FT                   HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAA
FT                   IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGL
FT                   DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"
FT   regulatory      723..746
FT                   /gene="sod"
FT                   /regulatory_class="terminator"
XX
SQ   Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other;
     cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat        60
     gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa       120
     ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg       180
     gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca       240
     ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt       300
     cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta       360
     ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca       420
     atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg       480
     gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt       540
     tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat       600
     gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca       660
     ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta       720
     tcgaaaggct cacttaggtg ggtcttttta tttcta                                 756
//


5 译码

Amino acids.jpg

基因译码为蛋白质,通用规则:

  • 三个碱基对应一个氨基酸 (Amino Acid)
  • 起始密码子:AUG (即 atg,氨基酸编码为 M,甲硫氨酸)
  • 终止密码子:UAA (taa)、UAG (tag)、UGA (tga),这些都不表达为氨基酸


The Genetic Code (transl_table=1):

TTT F Phe      TCT S Ser      TAT Y Tyr      TGT C Cys  
TTC F Phe      TCC S Ser      TAC Y Tyr      TGC C Cys  
TTA L Leu      TCA S Ser      TAA * Ter      TGA * Ter  
TTG L Leu i    TCG S Ser      TAG * Ter      TGG W Trp  

CTT L Leu      CCT P Pro      CAT H His      CGT R Arg  
CTC L Leu      CCC P Pro      CAC H His      CGC R Arg  
CTA L Leu      CCA P Pro      CAA Q Gln      CGA R Arg  
CTG L Leu i    CCG P Pro      CAG Q Gln      CGG R Arg  

ATT I Ile      ACT T Thr      AAT N Asn      AGT S Ser  
ATC I Ile      ACC T Thr      AAC N Asn      AGC S Ser  
ATA I Ile      ACA T Thr      AAA K Lys      AGA R Arg  
ATG M Met i    ACG T Thr      AAG K Lys      AGG R Arg  

GTT V Val      GCT A Ala      GAT D Asp      GGT G Gly  
GTC V Val      GCC A Ala      GAC D Asp      GGC G Gly  
GTA V Val      GCA A Ala      GAA E Glu      GGA G Gly  
GTG V Val      GCG A Ala      GAG E Glu      GGG G Gly  


AUG (M) 是最广泛的起始密码子,但大千世界,生物种类繁多,基因起始密码子也有可能不同,详情参阅:https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?chapter=tgencodes#SG11

EMBL/GenBank 文本数据中会标注基因解码蛋白质所用之 table,比如:X64011 之 /transl_table=11

ID   X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP.
......
......
FT   CDS             109..717
FT                   /transl_table=11
FT                   /gene="sod"
FT                   /product="superoxide dismutase"
......
......
SQ   Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other;
     cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat        60
     gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa       120
     ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg       180
     gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca       240
     ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt       300
     cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta       360
     ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca       420
     atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg       480
     gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt       540
     tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat       600
     gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca       660
     ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta       720
     tcgaaaggct cacttaggtg ggtcttttta tttcta                                 756


  • 靠近很多基因的起点的 TATAA 序列
  • 人染色体末端(端粒)中的重复序列 TTAGGG


6 CCR5

WT: TCTCATTTTCCATACAGTCAGTATCAATTCTGG...... -----> Gene & protein summary for CCR5CCR5CCR5 蛋白序列

 TCT CAT TTT CCA TAC AGT CAG TAT CAA TTC TGG    AAG AAT TTC CAG ACA TTA AAG ATA GTC ATC TTG GGG ......
 S    H   F   P   Y   S   Q   Y   Q   F   W      K   N   F   Q   T   L   K   I   V   I   L   G ......


Delta32, 32bp deletion, shift to frame #3: (A TT ---> I) -----> Delta32

 TCT CAT TTT CCA TAC A-- --- --- --- --- ---    --- --- --- --- --- TT A AA.G AT.A GT.C AT.C TT.G GG.G ......
 S    H   F   P   Y   -   -   -   -   -   -      -   -   -   -   - I    K     D    S    H    L    G ......


LuLu '-15bp': (TC T ---> S)

 TC- --- --- --- --- --T CAG TAT CAA TTC TGG    AAG AAT TTC CAG ACA TTA AAG ATA GTC ATC TTG GGG ......
 S    -   -   -   -   -   Q   Y   Q   F   W      K   N   F   Q   T   L   K   I   V   I   L   G ......


Nana '-4bp':

 TCT CAT TTT CCA TA- --- C.AG T.AT C.AA T.TC T.GG    A.AG A.AT T.TC C.AG A.CA T.TA A.AG A.TA G.TC A.TC T.TG G.GG ......
 S    H   F   P   Y   -     S    I    N    S    G       R    I    S    R    H    *    R     *    S    S    W ......


Nana '+1bp':

 TCT CAT TTT CCA TAC AaG.T CA.G TA.T CA.A TT.C TG.G    AA.G AA.T TT.C CA.G AC.A TT.A AA.G AT.A GT.C AT.C TT.G GG.G ......
 S    H   F   P   Y   K    S    V    S    I     L      E    E    F    P    D    I    K    D    S    H    L    G ......



7 参考










个人工具
名字空间

变换
操作
导航
工具箱