Genomics¶
约 5191 个字 预计阅读时间 17 分钟
DNA constituent structure¶
一些基本的生物学知识:
人类基因在分子层面由大量核苷酸序列(Nucleotide sequence)组成,核苷酸序列经过密码子翻译转化为氨基酸序列(Amino acid sequence)。
基因层面,核苷酸序列中不同的核苷酸排列会构成不同的基因区域来进行归类。编码蛋白质的区域包含如下区域:
-
5' UTR(非翻译区):基因的5'端区域,这部分不会被翻译成蛋白质,但在基因表达调控中起重要作用。需要注意的是5' UTR 在不同的基因中序列长度等都不同。
-
外显子(Exon):基因中真正被转录后并且在最终mRNA中保留下来,参与蛋白质编码的部分。
-
内含子(Intron):基因中不编码蛋白质的区域,通常在转录后会被剪接出去。
-
开放阅读框(ORF, Open Reading Frame):这是由多个外显子组成的序列,编码一个蛋白质。
-
3' UTR(非翻译区):基因的3'端区域,与5' UTR类似,不会被翻译成蛋白质,但也在调控基因表达方面起到作用。
下面具体解释一下 DNA上5', 3' 和基因中 5'UTR, 3'UTR 的作用和关联。
5' 和 3' 在DNA链中指的是两个化学方向,分别与核苷酸的糖环上的第5号碳和第3号碳相连。5'端通常有一个磷酸基团,3'端有一个羟基基团。
在转录或复制时,DNA 或 RNA聚合酶只能将新的核苷酸添加到DNA 或 mRNA的3'端,因此mRNA链的生长方向是5'到3'。这是转录时普遍遵循的方向。而由于复制或转录经由DNA模板链,因此聚合酶读取DNA模板链的方向是3'到5',因为合成的mRNA与模板链是反向互补的。
5' UTR(5'非翻译区)是mRNA的一部分,位于mRNA的5'端,但它不被翻译成蛋白质。
-
在转录过程中,5' UTR也是从5'到3'方向合成的,与整个mRNA分子的方向一致。5' UTR是转录的起始部分,即最早合成的部分。
-
mRNA的翻译方向:5' 到 3'。
-
核糖体从mRNA的5'端(通常是5' UTR之后的起始密码子AUG)开始移动,并读取mRNA的碱基序列,合成对应的多肽链。这个过程始终是从5'端向3'端进行。
-
蛋白质合成的方向:合成的蛋白质链是从氨基端(N端)到羧基端(C端) 逐步延长的。这与mRNA的5'到3'方向对应。
在实际基因中,蛋白编码基因仅占1.5%,这是基因组中负责直接编码蛋白质的区域,尽管它只占很小一部分。大约 50% 的基因组由重复序列组成。重复序列是基因组中一种广泛存在的非编码DNA,包括简单序列重复,片段重复和长短散布原件。
转座子活动可以引发插入、删除、逆转录等变异。散布重复序列,如LINEs和SINEs,可以通过其移动能力促进基因组重组。此外还可能影响可变剪接,调控基因等。
内含子占了26%,即相当大的一部分基因组虽然不直接编码蛋白质,但有可能参与基因表达的调控。
其他大部分基因组成分包括:
-
LINES(长散布元件):20%
-
SINEs(短散布元件):13%
-
LTR转座子:8%
-
DNA转座子:3%
-
简单序列重复:3%
-
段重复:5%
-
杂色异染色质:8%
-
其他独特序列:12%
Epigenetic modifications¶
表观遗传学(Epigenetic modifications)是指基因序列不发生改变的情况下,调控基因表达的一系列化学修饰。这些修饰可以影响DNA的包装、可访问性以及基因表达水平,而不改变DNA的核苷酸顺序。常见的表观遗传修饰包括 DNA 甲基化(DNA Methylation)组蛋白修饰(Histone Modifications)等。
甲基化通常与基因的 沉默(关闭) 相关。它可以通过抑制转录因子的结合或者改变染色质结构,使某些基因不被表达。组蛋白修饰中的乙酰化(Acetylation)则通常与基因 激活(开启) 相关,乙酰基的添加使染色质结构变松,增加转录因子的结合。
在蛋白质合成前,DNA 转录得到前体mRNA(Pre-mRNA),然后经过添加头部、剪切mRNA最后添加尾部得到成熟的mRNA。
可变剪接(Alternative Splicing),是一个通过从同一基因的 前体mRNA(pre-mRNA) 中选择性地移除或保留特定外显子或内含子,生成多种不同mRNA形式(mRNA spliceforms)的过程。可变剪接使得一个基因可以产生多种不同的蛋白质,从而大大增加了基因表达的多样性。
DNA methylation¶
DNA甲基化的化学结构:
甲基化是指在胞嘧啶(Cytosine)的碱基上,特别是在第5位碳原子上添加一个甲基基团(CH₃),生成5-甲基胞嘧啶(5-methylcytosine)。
CpG二核苷酸位点(CpG dinucleotide sites),简称 CpG位点是指DNA中胞嘧啶(C)紧跟着鸟嘌呤(G)的序列,甲基化通常发生在这种C-G二核苷酸上。这些位点被称为 CpG 岛,在基因调控区尤其富集。
CpG位点具有对称性,双链DNA中的两个互补链都可以甲基化。
在DNA复制过程中,甲基化只会保留在母链上,而新链没有甲基化。
通过DNA甲基转移酶的作用,甲基化模式可以被复制到新生成的链上,确保遗传信息和表观遗传信息都能稳定传递给下一代。
当CpG位点被甲基化时,DNA的结构更为紧密,转录因子难以接触到DNA,这会阻止转录的发生。这种情况下,基因表达受到抑制,转录被关闭。
当CpG位点未甲基化时,DNA处于较为开放的结构,转录因子和RNA聚合酶能够接触到启动子区域,进而激活基因的转录过程。这种情况下,基因能够正常表达,生成相应的mRNA。
甲基化的胞嘧啶(C)可能会自发发生脱氨作用,突变为胸腺嘧啶(T)。这种突变难以被DNA修复机制检测到,从而长期积累,导致CpG位点的减少。
随着进化的进行,这种自发突变的积累使得基因组中的CpG位点相对于其预期频率显著减少。因此,CpG位点在基因组中是较为稀少的,特别是在长期进化过程中,频繁的C到T的突变积累导致这种现象更加明显。
因此,CpG岛通常位于基因启动子附近,而其他区域的CpG位点在漫长的进化过程中被突变掉的原因与DNA甲基化和突变的累积效应有关。在基因启动子附近区域,CpG位点常常是未甲基化的,从而保护它们不受突变的影响。
未甲基化的CpG位点由于没有受到甲基化修饰的影响,较少发生C到T的突变,因此这些区域的CpG位点较少减少。
CpG岛在基因启动子区域常常是基因调控的重要部分,它们保持未甲基化状态有助于保持基因的活跃表达。这种特点启示我们可以通过CpG岛出现频率来预测该基因区域是否为外显子区域。更广泛的,对于一段未知功能的基因片段,我们可以尝试通过一些特征预测该片段的功能。
Histone modifications¶
在电子显微镜下,DNA 被缠绕在一系列小球形结构上。这些小球是核小体。每个核小体的直径大约为100埃(Å)。这些核小体通过DNA链连接起来,形成了一种初级结构,称为100埃纤维。
核小体可以进一步堆积成更紧密的结构,形成300埃纤维,也被称为超螺旋结构。
这种分层的压缩结构有助于将人类细胞中非常长的DNA有效地压缩到细胞核内,并在必要时允许DNA解开进行基因表达或复制。
核小体是染色质的基本单位,由约147个碱基对的DNA缠绕在八聚体组蛋白上形成。每个核小体包含四种组蛋白:H2A、H2B、H3和H4,各有两个副本,形成一个组蛋白八聚体(八个蛋白质单元)。
DNA分子绕组蛋白八聚体缠绕,包裹在这些蛋白上,形成紧密的核小体结构。核小体之间的连接DNA(linker DNA)则连接相邻的核小体,H1组蛋白位于连接DNA和核小体的结合处。
通过组蛋白尾部(H3 tail)的化学修饰,如乙酰化、甲基化、磷酸化等,细胞能够动态地改变核小体的松紧程度,从而调控基因的可接近性和表达状态。
ChIP-seq(染色质免疫沉淀测序) 是一种常用的技术,用来分析 DNA 与组蛋白之间的相互作用,特别是了解不同的组蛋白修饰如何调控基因表达。
ChIP-seq的工作流程:
-
首先,将细胞中的染色质进行片段化处理,将DNA与组蛋白分开处理。然后通过特异性抗体来识别并结合特定的组蛋白修饰。例如,如果我们关心的是某种特定的组蛋白甲基化修饰,抗体会特异性结合到具有这种修饰的组蛋白上。
-
与组蛋白修饰无关的片段,它们通过抗体无法结合,因此被排除。结合了抗体的片段(与特定组蛋白修饰相关),会通过免疫沉淀被捕获。
-
抗体结合到组蛋白修饰后,结合的DNA也会一同被提取出来。然后通过DNA纯化步骤分离出与这些组蛋白修饰相关的DNA片段。
-
接下来,这些片段可以被高通量测序,以识别哪些DNA序列与特定组蛋白修饰相关,从而得出染色质的调控信息。
-
通过 ChIP-seq 技术,研究人员可以了解哪些基因区域与特定的组蛋白修饰相关,进而推断出基因调控的机制。例如,某些特定的组蛋白修饰(如H3K4me3)通常与基因的活跃表达相关,而其他修饰(如H3K27me3)则可能与基因沉默相关。
在ChIP-seq实验中,经过免疫沉淀(通过特异性抗体捕获修饰的组蛋白及其结合的DNA)后,提取到的DNA片段会进行测序。这些片段对应于被特定组蛋白修饰所结合的DNA区域。
测序后的DNA片段被映射回基因组。图中红色条形代表了测序得到的片段,显示出这些片段沿着基因组的分布情况。这些片段的堆积表明这些区域与特定的组蛋白修饰高度相关,可能是基因调控的重要区域。
图中显示的红色峰值反映了在特定位置的修饰强度,峰值越高说明该区域可能是活跃的基因调控区。
这些信息可以帮助识别可能的增强子或启动子区域,因为这些区域的组蛋白修饰可能调控基因的表达。
Chromatin accessibility¶
核小体将DNA压缩成紧密的染色质结构,部分区域的DNA可以暴露在外。这些暴露的DNA区域称为DNase超敏位点(DNase hypersensitive sites),它们通常位于启动子或增强子区域,表示基因调控区域容易被转录因子或其他蛋白质结合。
DNase-seq和ATAC-seq技术通过检测这些开放的DNA区域,识别染色质的可及性:
-
DNase-seq通过DNase I酶切割开放的DNA区域,从而识别暴露的DNA片段。
-
ATAC-seq则通过转座酶插入到开放的DNA区域,以类似方式识别这些可及区域。
如图所示,绿色曲线表示ATAC-seq数据,蓝色曲线表示DNase-seq数据。峰值表示这些区域的DNA处于开放状态,提示这些区域可能是基因调控区域,如启动子或增强子。不同的峰值代表了染色质的不同可及性,越高的峰值表明该区域的DNA越容易被接触和调控。
染色质可及性的测量可以帮助研究人员识别哪些基因区域是开放的,并推测这些区域在基因调控中的角色。开放的DNA区域通常与活跃的基因表达相关,因此这些技术在研究基因调控元件(如增强子和启动子)方面具有重要应用。
3D organization and long-distance contacts¶
增强子(Enhancers)是远距离的调控元件,可能位于目标基因的1Mb(百万碱基对)以外。增强子能够通过染色质的三维结构与基因的启动子相互作用,帮助RNA聚合酶招募到启动子区域,从而启动基因转录。
如图所示为两个增强子(Enhancer A 和 Enhancer B),它们通过染色质的环状结构靠近目标基因的启动子区域(Gene X的启动子)。染色质不是线性的,而是通过三维结构将远距离的DNA片段拉近,从而使增强子能够与启动子接触。
Cohesin复合物(绿色环)帮助介导这种三维染色质环的形成,允许增强子区域与目标基因的启动子发生物理接触。
增强子通常通过结合特异性转录因子(TFs),例如图中的TF符号,来实现对基因表达的调控。这些转录因子可以通过与增强子上的调控区域结合,招募其他蛋白质复合物(如RNA聚合酶)来启动基因的转录。
图中的Gene X的启动子区域与RNA聚合酶相互作用,并且通过增强子调控形成激活转录的复合物。这表明远距离的增强子可以通过染色质的3D结构调控基因表达。
Hi-C是一种用于测量染色体三维结构中DNA片段之间相互作用的技术。通过这种方法,可以识别哪些DNA序列在三维空间中靠近并可能相互作用。
Hi-C实验步骤:
- DNA交联(Crosslink DNA):
在细胞内,将染色质中的DNA片段通过甲醛交联,固定处于物理接触的DNA片段,使它们在实验过程中保持相对位置。这一步将原本相互作用的DNA片段“粘合”在一起,防止它们分离。
- 酶切(Cut with restriction enzyme):
使用特定的限制性内切酶(如HindIII),将DNA切割成小片段。这样处理后,靠近的DNA片段虽然被切断,但由于交联的存在,它们仍然保持结合在一起。
- 末端填补并标记(Fill ends and mark with biotin):
对切割后的DNA末端进行处理,用生物素(biotin)标记这些末端,以便后续步骤中可以通过生物素-链霉亲和素的亲和力将这些片段拉取出来。
- 连接(Ligate):
通过连接酶将相互作用的DNA片段连接在一起。在这一步,空间上靠近的DNA片段会被物理连接到一起形成新的DNA片段。这些相互作用的DNA片段通常来自基因组的不同位置。
- 纯化并剪切DNA(Purify and shear DNA):
通过生物素拉取标记的DNA,并进一步剪切成更小的片段,为测序做好准备。
- 测序(Sequence using paired-ends):
最后,使用双端测序(paired-end sequencing)对相互作用的DNA片段进行测序。双端测序能够同时读取DNA片段的两端,因此可以确定在三维空间中靠近的DNA序列是哪两部分。
通过 Hi-C 方法,我们可以得到接触频率矩阵,显示染色质的三维结构中不同片段之间的相互作用频率。矩阵中的红色对角线表示同一个染色体上相邻的DNA片段,因为这些片段自然在物理空间中靠近,所以接触频率较高。
越远离对角线的区域,代表染色质中更远的片段相互作用。矩阵中的亮点或块通常代表染色质环(chromatin loops)或拓扑关联结构域(TADs)。
TADs 是染色质的功能结构单位,在三维空间中将染色质分隔成相对独立的区域。TAD 通过 CTCF 等结合位点和边界蛋白维持,基因表达和调控元件(如增强子、启动子)通常局限于 TAD 的内部。
TAD边界(TAD boundary)由某些特定的DNA序列(如CTCF结合位点)或基因元件组成,它们能够阻止调控元件跨域相互作用。这可以确保增强子不会激活相邻TAD内的基因。
TAD的边界和三维结构对于基因表达的精确调控至关重要。如果TAD边界受损或改变,可能导致基因误表达。
在活跃的TAD中,基因受到积极调控,而在被抑制的TAD中,基因表达被关闭。
CTCF Motif Orientation(CTCF结合位点方向):
-
这条蓝色和红色的线条代表CTCF结合位点的方向性。
-
蓝色条线表示CTCF结合位点的正向(Forward)。
-
红色条线表示CTCF结合位点的反向(Reverse)。
-
-
CTCF是维持TAD结构和边界的关键蛋白。CTCF结合位点的方向性影响着染色质的折叠方式,并决定了TAD的形成。在TAD边界处,CTCF正反向结合位点通常成对出现,这有助于染色质环状结构的形成,隔离不同TAD内的基因调控活动。
CTCF信号(CTCF Chip-seq轨迹):
-
这条蓝色的曲线代表CTCF的ChIP-seq(染色质免疫共沉淀结合测序)信号,展示了基因组上CTCF蛋白实际结合的区域。
-
高峰代表CTCF结合的位点,与上面的“CTCF Motif Orientation”对应。这些结合位点通常位于TAD边界处,起到隔离和限制相邻TAD之间基因调控相互干扰的作用。
Rad21信号(粘合素复合体的信号):
-
这条黑色曲线代表Rad21的ChIP-seq信号。Rad21是粘合素复合体的核心成分,负责染色质的环化结构(loop formation),在维持染色质的三维结构中发挥作用。
-
Rad21与CTCF结合位点协同工作,参与TAD的形成。Rad21的高峰往往与CTCF的结合位点一致,帮助稳定TAD内的染色质相互作用。
基因分布轨迹:
-
蓝色条带代表基因的分布,显示了基因的位置。图中标示了几个关键基因(如TBX5、TBX3等)的具体位置。
-
这些基因位于TAD内部,意味着它们的调控活动主要发生在各自的TAD中,而不是跨越TAD边界进行相互作用。
RNA表达量(绿色轨迹):
-
绿色曲线代表RNA表达的水平(通常来源于RNA-seq数据),显示哪些区域的基因在被积极转录。
-
高峰表示RNA表达水平较高,意味着这些区域的基因处于活跃状态。通常这些基因位于TAD内部,且与TAD内部的调控元件(如增强子)相互作用。
H3K27ac信号(橙色轨迹):
-
这条橙色的曲线代表组蛋白修饰H3K27ac(组蛋白H3第27位赖氨酸的乙酰化修饰)的信号。
-
H3K27ac是基因活跃的标志,通常出现在活跃的启动子和增强子区域。H3K27ac的高峰表示该区域的基因调控活动活跃,增强子可能参与了TAD内基因的调控。
总体而言,通过各种实验技术,我们能够得以进行统计分析,进一步识别和理解基因组中的不同功能区域,如增强子、启动子、基因等。