Machine learning & variant effect prediction¶

约 2248 个字预计阅读时间 7 分钟

在上一讲中，我们提到 GWAS 的基本原理是通过统计分析，在大规模人群中找出常见基因变异（SNPs）与常见疾病的关联。它的核心目标是发现与疾病最相关的基因位点，而不直接分析该区域变异对基因功能的具体影响，无法揭示功能机制。由于是基于统计分析，因而该方法只适用于有大量相关数据的常见疾病，如糖尿病、心脏病等。并且，GWAS 主要关注常见变异（common variants），这些变异的等位基因频率较高，通常是小效应变异。它们单独影响疾病的效应较小，但由于它们常见，累积效应可能较大，常与常见复杂性疾病相关。

接下来我们将介绍变异效应预测（variant effect prediction）。它重点关注于通过变异基因的功能预测来评估特定基因变异的致病性。它通常通过机器学习模型来预测某个具体变异是否致病，特别是那些临床意义不确定的变异（VUS）。

由于罕见变异在群体中的频率极低（通常低于1%），并且我们想要直接确认这类变异是否直接与疾病相关，并且罕见病通常由单个或少数基因的高效应变异引起，因而使用GWAS进行统计分析缺乏可信度和数据量。这些变异可能是罕见的孟德尔病的致病原因，单个变异对疾病的影响可能非常显著（高效应）。因而，在无法使用统计学方法的情况下，我们需要通过功能性预测模型，结合实验数据和机器学习算法，评估这些变异的致病潜力。

也就是说，在这一部分，我们希望直接预测某个基因变异所带来的功能性影响，是否会导致疾病的发生。

alt text

变异效应预测工具 (VEP) 通过分析基因变异的各种生物特征，来推断变异对基因功能或蛋白质结构的潜在影响。VEP会整合多种数据来源，如进化保守性、蛋白质结构信息、基因功能区域、非编码区域的调控效应等，来预测变异是否会影响基因或蛋白质的正常功能。

很多基因变异都可能导致类似的临床表型，这就使得解读某些变异的具体致病性变得复杂。我们可以通过面板检测来筛查得到与罕见疾病相关的多个基因，但我们可能会发现临床意义不确定的变异（VUS）。

数据显示，很多通过基因检测发现的变异被归为“临床意义不确定”的类别（约71%的变异），而确认致病或可能致病的变异只占29%。这29%可能通过精确的实验来得到验证。

变异可以大致分为蛋白质编码变异和调控变异。

蛋白质编码变异：如错义变异（missense variant），这种变异导致氨基酸发生变化，进而可能改变蛋白质的结构和功能。这种变异是常见的VUS类型，因为它们改变了蛋白质中的氨基酸序列，但并不是所有的氨基酸变化都会导致蛋白质功能的损害，因此需要进一步的功能性测试或生物信息学预测来确定其影响。此外，还有提前终止，插入额外氨基酸等蛋白质编码编译。

调控变异（regulatory variants）：这些变异不直接影响编码序列，而是改变基因的表达水平，例如非编码区域的变异可能会改变基因表达的调控，进而影响基因的功能。

我们希望能够通过机器学习方法从已知致病变异的特性中学习，以预测不确定意义变异（VUS）是否也是致病的。

通过机器学习方法预测VUS是否致病的过程可以分为几个步骤。我们以错义变异（missense variant）为例，并通过一个假设的流程来展示如何使用机器学习方法来实现这一预测。

数据准备
正类（致病变异）数据：首先，需要准备已知的致病性错义变异数据。这些变异可以从数据库如ClinVar、HGMD、UniProt等获取。这些变异已经被确认与特定疾病相关。
负类（良性变异）数据：还需要已知的良性错义变异数据，这些变异不会导致疾病。这类数据的来源可能包括gnomAD或其他数据库中已知不会导致疾病的常见变异。
未确定意义变异（VUS）：这些是要进行预测的变异集合，机器学习模型的目标是预测这些VUS是否致病。
选择预测特征

为了训练机器学习模型，需要为每个变异提取特征。常见的特征包括：

进化保守性：使用多序列比对（MSA）来分析该变异所在氨基酸位置的保守性。如果该位置在进化上非常保守，意味着它对蛋白质功能至关重要，变异可能致病。可以使用工具如PhyloP、PhastCons来获取保守性分数。
蛋白质结构特征：
- 预测变异是否会影响蛋白质的3D结构（如是否位于蛋白质的功能区）。
- 工具：如PolyPhen-2或SIFT，预测变异对蛋白质功能的影响。
生物化学性质：不同的氨基酸有不同的生物化学性质，如亲水性、体积、极性等。变异后氨基酸的性质变化可能会导致蛋白质功能的改变。
变异在基因中的位置：例如，变异是否出现在关键功能域（如催化位点、结合位点等），位置可能影响其致病潜力。
表观遗传特征：表观遗传特征作为预测变异功能的重要参考。如果某个变异发生在表观遗传标记活跃的区域（例如存在DNase I超敏位点或激活标记如H3K4me3），则该变异可能对基因调控有影响，从而更可能是致病的。如果变异发生在染色质不活跃区域（缺乏活性表观遗传标记），该变异对基因功能的影响可能较小。
构建特征向量
将每个变异的这些特征提取出来，形成一个特征向量。例如，对于某个错义变异（如从谷氨酸变成赖氨酸），特征向量可能包含如下信息：
- 该位置的进化保守性分数：0.9（高度保守）。
- 该变异在蛋白质结构中的影响评分（来自PolyPhen-2）：0.8（可能有害）。
- 氨基酸性质变化：从极性变为非极性。
- 变异位置是否在功能域内：是。

将这些特征组合成特征向量后，它们将作为模型的输入。

选择并训练机器学习模型

我们可以选择随机森林模型作为训练。支持向量机（SVM）、逻辑回归也可以用于此任务。

训练过程：
- 使用正类（致病变异）和负类（良性变异）数据作为训练数据集。
- 将每个变异的特征向量输入模型，训练模型学习哪些特征组合可能表明一个变异是致病的。
验证模型：
- 使用交叉验证等方法来验证模型的性能，确保模型在见过的数据之外也能做出准确的预测。
对VUS进行预测
一旦模型训练完成，就可以将VUS的特征向量输入模型，模型会输出一个预测结果。
输出通常是一个概率值，表示该变异被预测为致病的可能性。例如，模型可能输出0.85，表示该VUS有85%的概率是致病的。
解释预测结果
如果模型预测一个VUS的致病概率很高（例如>80%），则该变异可能是致病的。
如果预测概率很低（例如<20%），则可能是良性变异。
对于中间值，可能需要结合其他实验验证（如功能性实验）进一步确认。

假设我们有一个错义变异 c.500A>T 导致蛋白质中的谷氨酸（E）变成了赖氨酸（K）。我们提取了如下特征：

进化保守性：0.9（高度保守）。

PolyPhen-2评分：0.85（可能有害）。

氨基酸性质变化：极性变为非极性，影响蛋白质折叠。

功能域位置：在关键功能域中。

将这些特征输入训练好的随机森林模型，模型预测该变异有90%的可能性为致病变异。这个结果可以帮助临床医生做出更准确的诊断。