DNA功能序列是调控基因表达的关键序列,其准确识别对于理解基因表达机制和生物学功能至关重要。随着深度学习技术在多个领域的成功应用,其在DNA功能序列识别中也展现出了显著优势,包括高准确性和强大的泛化能力,这些优势为深入研究基因调控机制和促进生物学研究提供了新的动力。然而,深度学习模型主要问题在于其决策过程的不透明性,难以理解模型做出特定预测的内在原因。特别在DNA功能序列的识别模型中,由于功能序列的长度差异较大,这一挑战尤为明显。 为了解决这一问题,本文主要针对两种具有代表性的功能序列进行研究,包括长度较长的启动子和长度较短的G-四链体。通过设计可解释的深度学习模型,本研究不仅实现了对这些功能序列的高效预测,同时揭示模型的决策机制,从简单的“使用机器学习”向“理解机器如何学习”转变,增强对基因调控机制的认识与理解。 本文的内容主要有以下两个方面: 1.提出了一种用于微拟球藻启动子预测的可解释深度学习模型N-PIP,主要包括微拟球藻启动子分类任务的预测器和阐明分类背后的原理的解释器。预测器将注意力机制与稠密连接的卷积神经网络相结合,使模型能够自适应地学习序列特征的重要性,相比以前研究提出的模型显著提高了预测性能。为了提高深度神经网络的可解释性,N-PIP集成了启动子预测器以及基于空洞残差卷积的解释模块,构建了一个融合预测和解释微拟球藻启动子序列的深度学习模型。 2.提出了一种可解释的深度学习算法用于人类体内、体外G-四链体的预测。该算法的特征提取模块使用预训练的Enformer模型从DNA序列中提取具有细胞系特异性的基因组特征信息,分类模块使用多层感知机将基因组特征映射为体内G-四链体的形成概率。通过基于重要性反向传播以及沙普利重要性的深度学习解释算法计算基因组特征的重要性,本研究从模型中获取了大量与体内G-四链体形成相关的转录因子与组蛋白修饰类型,使得模型具备良好的可解释性。 摘要译文
深度学习; 可解释性; 微拟球藻; 启动子预测; G-四链体预测
Q811.4[生物信息论];TP18[人工智能理论]
071103[复杂系统建模与调控];071104[大数据与智能系统];081101[控制理论与控制工程]
10.26917/d.cnki.ganhu.2024.001526