DNA甲基化是表观遗传学中的核心修饰之一,异常的DNA甲基化模式通常是疾病发生的早期标志,尤其是在非编码区域。尽管非编码突变不直接编码蛋白质,但它们通过改变DNA甲基化模式,可能影响基因的表达,从而引发癌症、自身免疫性疾病等多种疾病。尽管如此,预测非编码突变对DNA甲基化的具体影响,特别是在单细胞层面,依然是科学界面临的一个重大挑战。
近日,上海交通大学生物医学工程学院林关宁团队在Advanced Science期刊上发表题为Epigenetic Impacts of Non-Coding Mutations Deciphered Through Pre-Trained DNA Language Model at Single-Cell Resolution的最新研究。研究团队介绍了一种新型深度学习框架Methven,该框架能够精准预测非编码突变对DNA甲基化的影响,并实现单细胞分辨率。这一创新技术为我们理解基因调控和疾病机制提供了全新的视角,并为个性化医学的进展提供了强大的支持。博士研究生刘喆为该论文的第一作者,林关宁教授为该论文的通讯作者。
Methven是基于深度学习的方法,结合了DNA序列数据和单细胞ATAC-seq(用于检测基因组染色质可及性的分子生物学测序手段)数据,建模预测非编码突变对DNA甲基化的影响。ATAC-seq数据提供了细胞内染色质的开放程度信息,反映了基因调控区域的活跃性,能够揭示基因表达的调控机制。而DNA序列数据则提供了潜在突变位点的基础信息。传统方法通常将二者分开处理,但Methven通过深度学习将两者结合,以实现更精确的、个性化的预测。
此外,Methven采用了“分治策略”,分别针对短距离(<10 kbp)和长距离(10 kbp-100 kbp)的SNP-CpG相互作用进行建模,预测范围可达100 kbp的基因组距离,既能捕捉到近距离的调控信号,也能有效解析远距离调控机制,弥补了现有方法在长距离调控信号预测上的不足。
Methven借助了预训练DNA语言模型进行建模,这种模型通过对大量基因组数据进行无监督预训练,允许生成DNA序列及突变序列的高质量嵌入(embedding)。这种技术能有效捕捉DNA序列中的复杂模式,帮助Methven提升了模型的精度和准确性,能够在不同的细胞类型和疾病状态下提供可靠的预测。
Methven通过集成单细胞ATAC-seq数据,可以分析每个细胞的染色质开放状态,从而揭示不同细胞类型中甲基化的动态变化。例如,在类风湿性关节炎的研究中,Methven成功识别了与免疫调控相关的CpG位点(DNA甲基化位点,通常与基因调控相关),揭示了这些位点在疾病进展中的作用,并进一步揭示了免疫调控和炎症反应中关键路径的变化。这一能力使得Methven能够为研究复杂疾病提供更为精细的细胞层次解析。
图1 Methven模型架构与预测流程。(a) 使用DNA序列和单细胞ATAC-seq数据预测非编码SNP对DNA甲基化的影响。(b) 预处理流程示意图。(c) 深度学习模块细节。
Methven的应用前景广泛,不仅在基础研究中具有巨大潜力,更为临床应用提供了可行的解决方案。在精准医学领域,Methven能够根据个体的基因组特征和细胞类型特异性甲基化模式,为其量身定制治疗方案。例如,研究团队在类风湿性关节炎的研究中,Methven通过分析与疾病相关的非编码单核苷酸多态性(SNP),发现了特定的CpG位点在患者和健康个体中的甲基化变化。通过对患者的SNP、甲基化水平以及其他表观遗传特征的综合分析,Methven能够在疾病发生的早期阶段提供风险预测,帮助医生更好地制定个性化治疗计划。
尤其现在,非编码突变已被广泛认为是癌症和精神心理疾病等复杂疾病发展的关键因素之一。Methven通过对突变位点的预测,能够帮助研究人员识别出潜在的疾病相关基因,并揭示其通过改变DNA甲基化模式调控基因表达的机制。Methven应用不仅推动了疾病机制的深度解析,也为个性化医学的发展提供了新的机遇。未来,随着单细胞技术和基因组数据的不断发展,Methven有望进一步提升其精准度和广泛应用范围。
图2 跨细胞类型的调控模式分析及案例研究
尽管Methven已经展示了其在预测非编码突变对DNA甲基化影响方面的应用潜力,研究团队表示,未来将进一步优化模型的预训练策略,并探索其在更大基因组范围内的应用。此外,随着单细胞测序技术的进步,Methven有望在更多细胞类型和疾病中得到应用,为精准医疗提供更多支持。本研究得到了国家重大科技专项基金和上海交通大学医工交叉基金等项目的资助。
课题组介绍
上海交通大学生物医学工程学院林关宁课题组(Biomedical Informatics Lab, https://bmi.sjtu.edu.cn/)主要从事生物信息学辅助疾病机制解读、人工智能赋能脑疾病诊疗等前沿研究,致力于开发分析与计算工具帮助解决生物与临床问题(AI for Biology & Medicine),具体包括(1)多组学联合分析挖掘精神类疾病生物标志物,构建机器学习模型,实现精准诊断和治疗干预;(2)开发突变效应预测系列工具,揭示突变效应与疾病机制的关联,为疾病早筛及临床用药提供指导;(3)开发基于Foundation model的精神疾病电子病历表征方法,提供服务于临床诊疗的算法新范式;(4)开发脑电神经解码系统,实现睡眠障碍的跨周期动态评估与精准量化分析,为构建智能化睡眠健康评估体系提供可解释性计算框架。
作者 | 林关宁课题组
供稿单位 | 科研与学科办
审核 | 叶坚、丁显廷