BioInfo

1 基础

基因 (Gene)：负载特定生物遗传信息的 DNA 分子片段，在一定条件下能够表达这种遗传信息，产生特定生理功能。按功能分类，可分为结构基因和调控基因。

结构基因可被转录成信使 RNA (mRNA)，并进而转译为多肽链（即：蛋白质）。基因转译为蛋白的过程称为基因的表达
调控基因是指某些可调节、控制结构基因表达的基因

在 DNA 链上，由蛋白质合成的起始密码子开始，到终止密码子为止的一个连续编码序列称为一个开放阅读框 (Open Reading Frame, ORF)

结构基因多含有插入序列，除了细菌和病毒的 DNA 中的 ORF 是连续的，包括人类在内的真核生物的大部分结构基因皆为断裂基因，即其编码序列在 DNA 分子上是不连续的，或被插入序列隔开。

断裂基因被转录成前体 mRNA，经过剪切过程，切除其中非编码序列（即内含子，Introns），再将编码序列（即外显子，Exons）连接成成熟 mRNA，并翻译成蛋白质

假基因是与功能性基因密切相关的 DNA 序列，但由于缺失、插入和无义突变而失去阅读框，从而不能编码为蛋白质

DNA: A - T, C - G
RNA: A - U, C - G

有关具体基因的表达，可以查询： Expression Atlas An open science resource that gives users a powerful way to find information about gene and protein expression across species and biological conditions such as different tissues, cell types, developmental stages and diseases among others

2 简史

第一个被完整测序的 DNA：噬菌体 ΦX174 (Escherichia phage phiX174)，1975 年完成，环形单链 DNA (ssDNA)，5386 bp (GenBank ID: J02482)，编码 11 个蛋白质（8 个必需）
第一个被完整测序的动物 Virus DNA：SV40 virus [2]，1977 年完成，环形双链的 DNA，5243 bp
pBR322，1978 年完成，4363 bp
人类线粒体，1981 年，16.6 kb
λ 噬菌体，1982 年，48 502 bp，61 个基因（38个较为重要）
第一个被完整测序的能独立生存的生物体 DNA：流感嗜血杆菌 (Haemophilu sinfluenzae)，1995 年，1 830 140 bp, 1740 个基因
1995 - 2001 大约 50 个细菌的基因组序列被测出，与此同时，更大一点的基因组陆续被测出：
- 酵母 (12.1 Mbp) Candida albicans 白色念珠菌，1996 年
- Caenorhabditis elegans （线虫 101.169 Mbp，表达 28313 个蛋白），1998 年
- Drosophila melanogaster (fruit fly) 果蝇 (137.688 Mbp，表达 30493 个蛋白)，1999 年
- Arabidopsis thaliana （拟南芥，一种植物 119.148 Mbp，表达 39551 个蛋白）
- 人类基因组 (2995.74 Mbp, 表达 119294 个蛋白) ，2000 年

3 数据库

3.1 EMBL

European Molecular Biology Laboratory，欧洲分子生物学实验室，位于英国剑桥

http://www.ebi.ac.uk

3.2 GenBank

National Center for Biotechnology Information, NCBI，美国国家生物信息中心，隶属于美国国家医学图书馆，位于美国国家卫生研究院 (NIH) 内

https://www.ncbi.nlm.nih.gov

3.3 DDBJ

DNA Databank of Japan，日本 DNA 数据库

http://www.ddbj.nig.ac.jp

3.4 NGDC

国家基因组科学数据中心：

3.5 SWISS-PROT

由日内瓦大学医学生物化学系和欧洲生物信息学研究所 (EBI) 合作维护

蛋白质数据由 EMBL DNA 数据翻译而来，并经过检验和注释

3.6 PIR

由美国国家生物技术信息中心 (NCBI) 翻译自 GenBank 的 DNA 序列

根据注释质量分四个等级：PIR1 ~ PIR4，等级逐步降低

http://pir.georgetown.edu

3.7 蛋白质结构数据库

实验获得的三维蛋白质结构均储存于 PDB。主要由 X 射线衍射和核磁共振 (NMR) 确定。http://www.rcsb.org/pdb

4 Tools

FASTA:

序列搜索比对：https://fasta.bioch.virginia.edu/fasta/fasta_list.html

BLAST:

应用最广泛的序列相似性搜索工具：ftp://ncbi.nlm.nih.gov/blast

Blastp；蛋白质数据库；查蛋白质；可能找到具有远源进化关系的匹配序列
Blastn；核酸数据库；查核苷酸；适合找寻分值较高的匹配，不适合远源关系
Blastx；蛋白质数据库；查核酸（翻译）；适合新 DNA 序列和表达序列标签序列的分析
TBlastn；核苷酸（翻译）数据库；查蛋白质；适合寻找数据库中尚未标注的编码区
TBlastx；核酸（翻译）数据库；查核酸（翻译）；适合分析表达序列标签序列

在线版本：http://www.ncbi.nlm.nih.gov/BLAST

ClustalW / ClustalX（单机版）:

使用广泛的多序列比对工具：ftp://ftp.ebi.ac.uk/pub/software/

http://www.ebi.ac.uk/clustalw/

5 格式

5.1 FASTA

FASTA 格式（又称为Pearson格式）是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示，且允许在序列前添加序列名及注释。

FASTA 文件以序列表示和序列作为一个基本单元，各行记录信息如下：

第一行：以 ">" 开头的任意文字说明。用于序列标记，为了保证后续分析软件能够区分每条序列，单个序列的标识必须具有唯一性
第二行：碱基序列。只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可，而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过 80 个字符

参考：https://en.wikipedia.org/wiki/FASTA_format

5.2 FASTQ

FASTQ 最初由 Sanger 开发，目的是将 FASTA 格式数据与质量数据放到一起，目前已经成为高通量测序结果的事实标准。

FASTQ 文件以四行为一个基本单元，并对应一条序列的测序信息，各行记录信息如下：

第一行：序列标识以及相关的描述信息。以‘@’开头，为了保证后续分析软件能够区分每条序列，单个序列的标识必须具有唯一性
第二行：碱基序列
第三行：以‘+’开头，后面是序列标示符、描述信息，或者什么也不加
第四行：质量信息，长度和第二行的序列相对应，每一个序列都有一个质量评分，根据评分体系的不同，每个字符的含义表示的数字也不相同。

参考：https://en.wikipedia.org/wiki/FASTQ_format https://www.cnblogs.com/yahengwang/p/8973948.html

5.3 EMBL

以文献：《利用大肠杆菌中的功能互补克隆伊维斯特氏菌超氧化物歧化酶基因及基因产物的表征》提到的超氧化物歧化酶基因 (superoxide dismutase gene)为例：

ID   X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP.
XX
AC   X64011; S78972;
XX
DT   28-APR-1992 (Rel. 31, Created)
DT   26-SEP-2006 (Rel. 89, Last updated, Version 8)
XX
DE   Listeria ivanovii sod gene for superoxide dismutase
XX
KW   sod gene; superoxide dismutase.
XX
OS   Listeria ivanovii
OC   Bacteria; Firmicutes; Bacilli; Bacillales; Listeriaceae; Listeria.
XX
RN   [1]
RX   PUBMED; 1736100.
RA   Haas A., Goebel W.;
RT   "Cloning of a superoxide dismutase gene from Listeria ivanovii by
RT   functional complementation in Escherichia coli and characterization of the
RT   gene product";
RL   Mol. Gen. Genet. 231(2):313-322(1992).
XX
RN   [2]
RP   1-756
RA   Kreft J.;
RT   ;
RL   Submitted (21-APR-1992) to the INSDC.
RL   J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am
RL   Hubland, 8700 Wuerzburg, FRG
XX
DR   MD5; 3aef81a22cd6d78af1c13413d452aa45.
DR   EuropePMC; PMC2739203; 19682364.
DR   StrainInfo; 14848; 1.
XX
FH   Key             Location/Qualifiers
FH
FT   source          1..756
FT                   /organism="Listeria ivanovii"
FT                   /strain="ATCC 19119"
FT                   /mol_type="genomic DNA"
FT                   /db_xref="taxon:1638"
FT   regulatory      95..100
FT                   /gene="sod"
FT                   /regulatory_class="ribosome_binding_site"
FT   CDS             109..717
FT                   /transl_table=11
FT                   /gene="sod"
FT                   /product="superoxide dismutase"
FT                   /EC_number="1.15.1.1"
FT                   /db_xref="GOA:P28763"
FT                   /db_xref="InterPro:IPR001189"
FT                   /db_xref="InterPro:IPR019831"
FT                   /db_xref="InterPro:IPR019832"
FT                   /db_xref="InterPro:IPR019833"
FT                   /db_xref="InterPro:IPR036314"
FT                   /db_xref="InterPro:IPR036324"
FT                   /db_xref="UniProtKB/Swiss-Prot:P28763"
FT                   /protein_id="CAA45406.1"
FT                   /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVSG
FT                   HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAA
FT                   IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGL
FT                   DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"
FT   regulatory      723..746
FT                   /gene="sod"
FT                   /regulatory_class="terminator"
XX
SQ   Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other;
     cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat        60
     gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa       120
     ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg       180
     gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca       240
     ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt       300
     cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta       360
     ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca       420
     atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg       480
     gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt       540
     tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat       600
     gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca       660
     ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta       720
     tcgaaaggct cacttaggtg ggtcttttta tttcta                                 756
//

6 译码

基因译码为蛋白质，通用规则：

三个碱基对应一个氨基酸 (Amino Acid)
起始密码子：AUG （即 atg，氨基酸编码为 M，甲硫氨酸）
终止密码子：UAA (taa)、UAG (tag)、UGA (tga)，这些都不表达为氨基酸

The Genetic Code (transl_table=1):

TTT F Phe      TCT S Ser      TAT Y Tyr      TGT C Cys  
TTC F Phe      TCC S Ser      TAC Y Tyr      TGC C Cys  
TTA L Leu      TCA S Ser      TAA * Ter      TGA * Ter  
TTG L Leu i    TCG S Ser      TAG * Ter      TGG W Trp  

CTT L Leu      CCT P Pro      CAT H His      CGT R Arg  
CTC L Leu      CCC P Pro      CAC H His      CGC R Arg  
CTA L Leu      CCA P Pro      CAA Q Gln      CGA R Arg  
CTG L Leu i    CCG P Pro      CAG Q Gln      CGG R Arg  

ATT I Ile      ACT T Thr      AAT N Asn      AGT S Ser  
ATC I Ile      ACC T Thr      AAC N Asn      AGC S Ser  
ATA I Ile      ACA T Thr      AAA K Lys      AGA R Arg  
ATG M Met i    ACG T Thr      AAG K Lys      AGG R Arg  

GTT V Val      GCT A Ala      GAT D Asp      GGT G Gly  
GTC V Val      GCC A Ala      GAC D Asp      GGC G Gly  
GTA V Val      GCA A Ala      GAA E Glu      GGA G Gly  
GTG V Val      GCG A Ala      GAG E Glu      GGG G Gly

AUG (M) 是最广泛的起始密码子，但大千世界，生物种类繁多，基因起始密码子也有可能不同，详情参阅：https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?chapter=tgencodes#SG11

EMBL/GenBank 文本数据中会标注基因解码蛋白质所用之 table，比如：X64011 之 /transl_table=11

ID   X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP.
......
......
FT   CDS             109..717
FT                   /transl_table=11
FT                   /gene="sod"
FT                   /product="superoxide dismutase"
......
......
SQ   Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other;
     cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat        60
     gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa       120
     ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg       180
     gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca       240
     ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt       300
     cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta       360
     ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca       420
     atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg       480
     gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt       540
     tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat       600
     gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca       660
     ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta       720
     tcgaaaggct cacttaggtg ggtcttttta tttcta                                 756

靠近很多基因的起点的 TATAA 序列
人染色体末端（端粒）中的重复序列 TTAGGG

7 CCR5

WT (Wild Type): TCTCATTTTCCATACAGTCAGTATCAATTCTGG......

 TCT CAT TTT CCA TAC AGT CAG TAT CAA TTC TGG    AAG AAT TTC CAG ACA TTA AAG ATA GTC ATC TTG GGG ......
 S    H   F   P   Y   S   Q   Y   Q   F   W      K   N   F   Q   T   L   K   I   V   I   L   G ......

Delta32, 32bp deletion, shift to frame #3: (A TT ---> I) -----> CCR5Δ32

 TCT CAT TTT CCA TAC A-- --- --- --- --- ---    --- --- --- --- --- TT A AA.G AT.A GT.C AT.C TT.G GG.G ......
 S    H   F   P   Y   -   -   -   -   -   -      -   -   -   -   - I    K     D    S    H    L    G ......

LuLu '-15bp': (TC T ---> S)

 TC- --- --- --- --- --T CAG TAT CAA TTC TGG    AAG AAT TTC CAG ACA TTA AAG ATA GTC ATC TTG GGG ......
 S    -   -   -   -   -   Q   Y   Q   F   W      K   N   F   Q   T   L   K   I   V   I   L   G ......

Nana '-4bp':

 TCT CAT TTT CCA TA- --- C.AG T.AT C.AA T.TC T.GG    A.AG A.AT T.TC C.AG A.CA T.TA A.AG A.TA G.TC A.TC T.TG G.GG ......
 S    H   F   P   Y   -     S    I    N    S    G       R    I    S    R    H    *    R     *    S    S    W ......

Nana '+1bp':

 TCT CAT TTT CCA TAC AaG.T CA.G TA.T CA.A TT.C TG.G    AA.G AA.T TT.C CA.G AC.A TT.A AA.G AT.A GT.C AT.C TT.G GG.G ......
 S    H   F   P   Y   K    S    V    S    I     L      E    E    F    P    D    I    K    D    S    H    L    G ......

http://www.informatics.jax.org/searchtool/Search.do?query=CCR5

8 2019-nCov

Find all other Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) sequences at: https://www.ncbi.nlm.nih.gov/genbank/sars-cov-2-seqs/

8.1 参考序列

第一个参考序列为 NC_045512.2，2020年1月18日公布出来的第一株序列，来自武汉采集样本，原始 GenBank accession number 为：MN908947，refseq 库 accession number 为 NC_045512.2，长度 29903bp，原始数据为 SRR10971381。

参考序列网址：https://www.ncbi.nlm.nih.gov/nuccore/NC_045512

文章：https://www.nature.com/articles/s41586-020-2008-3.pdf

SARS 参考基因组 accession number 为 NC_004718.3，物种分类 ID 为 694009。https://www.ncbi.nlm.nih.gov/nuccore/NC_004718.3

蝙蝠分离株参考基因组，命名为 batSARS，参考序列株为MG772933 https://www.ncbi.nlm.nih.gov/nuccore/MG772933

$ wget https://ftp.ncbi.nlm.nih.gov/entrez/entrezdirect/edirect.tar.gz
# 2019-nCov
$ efetch -db nuccore -format fasta -id NC_045512 > 2019nCov.fa
# SARS-nCov
$ efetch -db nuccore -format fasta -id NC004718 > SARS.fa
# SARS-like
$ efetch -db nuccore -format fasta -id KT444582 > SARS-like-WIV16.fa
# batSARS
$ efetch -db nuccore -format fasta -id MG772933 > batSARS.fa

$ curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/linux-amd64/datasets'
$ chmod +x datasets
$ curl -o dataformat 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/mac/dataformat'
$ curl -o datasets.exe "https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/win64/datasets.exe"

efetch guide: https://dataguide.nlm.nih.gov/edirect/efetch.html cmd parameters

8.2 命名和分型

WHO 新冠病毒变种株命名规则： https://www.who.int/en/activities/tracking-SARS-CoV-2-variants/

目前使用较多的 Pangolin 分型法：https://cov-lineages.org/pangolin.html

“Phylogenetic Assignment of Named Global Outbreak Lineages（以系统发育归类命名全球暴发分支）”。研究基于GISAID 数据库中 SARS⁃CoV⁃2 基因组序列的系统发育提出了一个合理和动态的命名，即使用一个系统发育框架来识别当下活跃的病毒分支。

以A，B为主分支，最近比较火的，英国发现的变异病毒“B1.1.7”，就是基于这种分型方法。可以在线分析数据 https://pangolin.cog-uk.io/ 把 fasta 文件拖拽上去即可。

Examples:

>>>
B.1.617.2      Predominantly India lineage with several spike mutations (WHO: Delta)


B.1.1.529      South Africa and Botswana lineage (WHO: Omicron)

------
BA.1           Alias of B.1.1.529.1, named at 2021/12/07, BJCDC@2022-01-07
BA.1.1         Alias of, BJCDC@2022-01-01 ~ 2022-03
BA.1.1.1       Alias of,  BJCDC@2022-01-07
BA.2           Alias of, BJCDC@2022-01-12 ~ 04-09
BA.2.2         Alias of, BJCDC@2022-08-29
BA.2.2.1       Alias of B.1.1.529.2.2.1, China lineage, named at 2022/06/13, BJCDC@2022-05
BA.2.3.7
BA.2.76        Alias of B.1.1.529.2.76, mainly found in India and USA, named at 2022/07/02
------
BA.2.75        Alias of B.1.1.529.2.75, mainly found in India, named at 2022/06/24
CH.1.1         Alias of B.1.1.529.2.75.3.4.1.1.1.1, defined by S:L452R, named at 2022/10/13

BA.5.2         Alias of B.1.1.529.5.2, mainly found in South Africa, England and USA, named at 2022/05/25

XBB            Alias of B.1.1.529.2.75 (BA.2.75 or BJ.1) with breakpoint in S1, found in USA and Singapore, named at 2022/09/17 
XBB.1          Alias of B.1.1.529.2.75.1 (XBB with S:G252V), named at 2022/10/03
XBB.1.1        Alias of B.1.1.529.2.75.1.1, (ORF1a:P309L), named at 2022/10/15
XBB.1.2        Alias of B.1.1.529.2.75.1.2, (S:S640F), named at 2022/10/17
XBB.1.3        Alias of B.1.1.529.2.75.1.3, (S:A484T), named at 2022/10/23
XBB.1.4        Alias of B.1.1.529.2.75.1.4, (S:T883I), named at 2022/11/06
XBB.1.5        Alias of B.1.1.529.2.75.1.5, (S:F486P), found in USA, named at 2022/11/08
XBB.1.6        Alias of B.1.1.529.2.75.1.6, (S:L216F, S:H146K), named at 2022/12/16
XBB.1.7        Alias of B.1.1.529.2.75.1.7, (S:V608I), named at 2022/12/22

XBF            Alias of B.1.1.529.5.2.3 (BA.5.2.3 or CJ.1), mainly found in Australia, , named at 2022/11/03

BF.7           Alias of B.1.1.529.5.2.1.7, mainly found in Belgium, England and Denmark, named at 2022/05/25, named at 2022/07/16
BF.7.13        Alias of B.1.1.529.5.2.1.7.13, Belgium, ORF1a:H388Y, ORF1a:H1160Y, named at 2022/11/03
BF.7.13.1      Alias of B.1.1.529.5.2.1.7.13.1, Europe, S:T430I, S:P681S, named at 2022/11/03

BQ.1           Alias of B.1.1.529.5.3.1.1.1.1.1, Nigeria lineage, named at 2022/09/02
BQ.1.1         Alias of B.1.1.529.5.3.1.1.1.1.1.1, found globally, defining mutations ORF1b:N1191S and S:R346T, named at 2022/09/09
BQ.1.1.1       Alias of B.1.1.529.5.3.1.1.1.1.1.1.1, Europe, ORF1b:V1639A, named at 2022/10/15
BQ.1.1.17      Alias of B.1.1.529.5.3.1.1.1.1.1.1.17, France, ORF1a:S2273F, named at 2022/10/31
BQ.1.1.19      Alias of B.1.1.529.5.3.1.1.1.1.1.1.19, England, N:Q380H, named at 2022/10/31

按照 WHO 最新命名规则：

Alpha (B.1.1.7)，2020/9 月发现于英国，https://www.ncbi.nlm.nih.gov/nuccore/MZ310552
Beta (B.1.351)，2020/5 月发现于南非， https://www.ncbi.nlm.nih.gov/nuccore/MZ202314
Delta (B.1.617.2)，2020/10 发现于印度，https://www.ncbi.nlm.nih.gov/nuccore/MZ318159
Gamma (P.1)，2020/11 月发现于巴西，https://www.ncbi.nlm.nih.gov/nuccore/MZ169911
Zeta (P.2)，2020/11 月发现于巴西，https://www.ncbi.nlm.nih.gov/nuccore/MZ169912
Kappa (B.1.617.1)，2020/10 发现于印度，https://www.ncbi.nlm.nih.gov/nuccore/MZ310580

Omicron，B.1.1.529 (BA.1)，2021/11/24 南非报告，https://www.ncbi.nlm.nih.gov/nuccore/ WHO 提醒第一例已知 B.1.1.529 确诊感染来自2021年11月9日采集的一份样本
BQ.1.1 (BA.5.3.1.1.1.1.1.1)，2022/9 尼日尼亚发现，
CH.1.1 (B.1.1.529.2.75.3.4.1.1.1.1)，2022/11 香港

8.3 VOC

监测：https://ngdc.cncb.ac.cn/ncov/

BA.2.75 与 BA.5 未来的进化趋势
BA.5
- BA.5.2
- BA.5.2.1.7 (BF.7)
- BA.5.3.1.1.1.1.1.1 (BQ.1.1)
XBB (BJ.1/BA.2.75)
- XBB.1.5, 2022/11

CovSpectrum queries to track both lineages already:

BA.5: https://cov-spectrum.org/explore/World/AllSamples/Past6M/variants?nucMutations=12160A%2C9866.%2C27259A&pangoLineage=BA.2*&nucMutations1=22792T%2C22916A%2C23767G&pangoLineage1=BA.2*&

BA.4: https://cov-spectrum.org/explore/World/AllSamples/Past6M/variants?nucMutations=12160A%2C9866.%2C27788T&pangoLineage=BA.2*&nucMutations1=22792T%2C22916A%2C23767G&pangoLineage1=BA.2*&

8.4 Reference

Fields Virology 7th Edtion Vol 3 RNA Virus

9 参考

VIP: an integrated pipeline for metagenomics of virus identification and discovery

https://en.wikipedia.org/wiki/Amino_acid
https://en.wikipedia.org/wiki/CD4
Stadhouders R, Lubberts E, Hendriks RW. A cellular and molecular view of T helper 17 cell plasticity in autoimmunity. J Autoimmun. 2018 Feb