Genome Biology | 上海交通大学丁显廷 林关宁团队提出单细胞质谱流式技术数据分群方法的基准分析框架
发布时间:2019-12-30 21:18:00

        2019年12月23日,上海交通大学丁显廷教授和林关宁教授团队联合在Genome Biology上发表了题为“A Comparison Framework and Guideline of Clustering Methods for Mass Cytometry Data”的文章。 该文章从准确性(precision)、一致性(coherence)和稳定性(stability)三个层面由浅入深地阐明了不同单细胞质谱流式技术(CyTOF)细胞族群分析方法的优劣及其适用场景。这是国际一线杂志第一次报道中国大陆学者在单细胞质谱流式技术数据标准化和分析方法学方面的工作。


        相比传统荧光标记的流式细胞术,CyTOF技术采用金属同位素标记抗体,避免了荧光重叠和自荧光消除的问题,可在单细胞水平同时测量数百万细胞中近百种蛋白质的表达量。这种同时获取高维度蛋白质的超强能力使得CyTOF技术在药物优化、疫苗开发和疾病标记发现方面具有重要的应用价值。


        然而,迄今为止CyTOF技术的数据标准化、样本和数据的质量控制、分析方法学,主要还是基于欧美学者提出的Accense,PhenoGraph和Xshift等分析方法。虽然这些分析方法已被广泛应用于不同的领域和临床研究,但是很多研究者对于采用哪个方法能更好地分析个体化的数据仍然存在疑惑。


        在这篇文章中,研究人员在三类异源(骨髓细胞、肌肉组织、结肠组织)6个单细胞组学的数据集上对目前经典的无监督和半监督细胞分群方法进行了基准分析和深度比较。在准确性(precision)分析上,根据四种内部评价指标(Accuracy,F-measure, NMI和ARI)讨论了不同方法对细胞进行分群的准确性;在一致性(coherence)分析上,利用三种外部评价指标(DB,CH和XB)探讨了细胞分群方法揭示细胞数据内部本质结构的能力;在稳定性(stability)分析方面,研究了随细胞采样数量变化,不同方法的准确性和识别出的细胞亚群数量的鲁棒性。此外,这篇文章还讨论了分群方法的分群分辨率,发现PhenoGraph和Xshifit能够识别出更细粒度的亚群(亚群数量偏多),而DEPECHE倾向于识别粗粒度的亚群(亚群数量偏少)。



图1  CyTOF数据细胞分群方法的选择决策树

        综合上述框架的分析结果,这篇文章为单细胞质谱流式分析领域的研究者,特别是初学者以及没有生物信息学基础的研究者,提供了细胞分群方法的选择决策树。

图2  聚类方法的稳定性分析

        上海交通大学生物医学工程学院个性化医学研究院是中国最早建立起单细胞质谱流式技术的单位之一,并已初步实现技术向临床应用的转化,先后利用单细胞痕量蛋白分析技术完成了寄生虫耐药、银屑病、结肠癌、肺结核方面的相关临床应用研究。



        刘晓博士、宋炜宸博士生是论文的第一作者。丁显廷教授和林关宁教授是论文的通讯作者。相关研究得到国际人类表型组计划、国家传染病重大专项、上海市高峰高原学科建设计划、国家自然科学基金等项目的支持。