查看原文
其他

聚类分析新工具DeepScena:我的检测就是尺!

雪梨 挑圈联靠
2024-08-23

大家好,我是雪梨~小长假中来点轻松省力,这篇文献提出一种新工具!


单细胞 RNA 测序(scRNA-seq)中,聚类在将相似细胞分组以进行各种下游分析方面发挥着重要作用。然而scRNA-seq大数据的高稀疏性和高维性对聚类性能提出了挑战,现有的大多数聚类方法又在捕捉数据的精确分布类型或充分利用细胞之间的关系方面存在局限性。因此,聚类性能还有很大的提升空间。

本篇文献介绍了一种新型单细胞分层聚类工具Deep Scena,在使用多个scRNA-seq数据集进行综合评估时,它的准确性始终优于七种流行的聚类工具。不仅如此,DeepScena在识别包含大量聚类的大型数据集中的稀有细胞群方面表现出很高的能力。


下面就一起来看看吧!


预计阅读时间:10分钟

文献背景

Self-supervised deep clustering of single-cell RNA-seqdata to hierarchically detect rare cell populations


对单细胞RNA测序数据进行自监督深度聚类,分层检测稀有细胞群


期刊:Briefings in Bioinformatics

IF:9.5


文献背景

技术路线


本文首先提出scRNA-seq数据的高维度、稀疏性和噪声性对传统聚类方法提出了挑战,分析现有的基于深度学习的scRNA-seq聚类方法的不足后,提出了一种新的基于深度学习的scRNA-seq数据聚类方法DeepScena,该方法结合了负二项式卷积自编码器和自监督网络Mnet。


DeepScena方法组成:负二项式卷积自编码器用于数据拟合、降维和初步聚类;自监督网络Mnet用于增强细胞间相似性。


层级聚类策略:通过在不同层次重新选择特征基因,实现了自顶向下的层级聚类,有助于检测稀有细胞类型。


数据预处理:对原始scRNA-seq数据过滤、标准化、高变基因选择等。


方法验证:在8个大规模的单细胞RNA测序数据集上验证了DeepScena方法的性能,结果显示其明显优于其他聚类方法。


应用成果:将DeepScena应用于多发性骨髓瘤的单细胞数据集,成功识别出多个稀有细胞亚群,并发现了一些标志基因。


总结与展望:总结了DeepScena方法的优势,展望了未来的发展方向,如整合多组学数据、迁移学习等。


为了捕捉 scRNA-seq 数据的特征,在自动编码器中加入了基于 NB 模型的损失函数。NB 的参数为均值 μ 和离散度 θ:[x' ]代表X'中预处理表达式值的取整。





D为解码器的输出。由于均值和离散参数都是非负值,因此使用指数激活函数。具体来说,自动编码器中基于 NB 的损失函数是 NB 的负对数似然值,即 μ = exp(WμD) 和 θ = exp(WθD),其中 W 代表网络权重参数矩阵。基于 NB 的损失函数为:





首先使用(2)所示基于NB模型的损失函数LNB对自动编码器进行预训练,在潜空间中获得细胞的低维表示。然后在潜空间中进行k-means聚类,得到K个初始聚类中心u(1),u(2),...,u(K)。

对自动编码器进行K次训练,每个聚类训练一次,使单元点更有可能属于其真正的单元聚类。定义(3)为第k次运行的损失函数,该函数包括三个加权和损失:

(4)卷积自动编码器的单元重建

(5)集群的居中

(6)拟合NB分布参数

使用两个超参数 α 和 β 来平衡损失函数 L(k)u 的三个分量。在所有实验中,模糊度 λ 设置为 1.5。对于每个单元 i,我们通过测量 ui 与聚类中心 u(k) 之间的欧氏距离来计算第 k 个聚类的成员度 pik,pik由(7)定义。然后,通过最小化损失函数 L(k)u 来更新自动编码器的参数。

每迭代 T1 次(历时),聚类中心 u(k) 将更新为潜空间中加权单元点的平均值,如公式 (8) 所定义。如果迭代总数为 xT1,则每个聚类中心更新 x 次。

如公式 (4)-(6) 所示,聚类概率 pik 的 λ 次幂被用作自动编码器重建、居中和 NB 损失函数中的非线性权重。这种方法能有效地将属于同一聚类的单元格拉近低维潜在空间的距离。





(9)(10)是两个损失函数。

在第一阶段,MNet 随机初始化。在 T2 次训练迭代(epochs)中,使用空间 U 中的赋值 p1、p2...pn,利用损失函数 (9) 训练 q1、q2...qn。这里,δ(0 <δ< 1)是一个超参数,用于识别相似度高于δ或低于 1-δ 的单元对,I[- ] 是指示函数。通常情况下,δ 被设置为小于 1 的十进制分数,如 δ = 0.8,因此介于 1 - δ = 0.2 和 δ = 0.8 之间的相似性分数不会用于训练 MNet,以避免不确定的聚类。在每次迭代 T2 时,使用公式 (8) 再次更新 k = 1, --- , K 的聚类中心 u(k),经过 T2 次迭代后得到一个相对可靠的空间 q。然后,在第二阶段使用(10)中定义的损失函数 LPhase2 对 MNet 进行若干次历时微调。自监督方法允许采用自定义的伪标签作为一种监督形式,表现出高度相似性的细胞应被归入同一类型,而表现出明显差异的细胞应被归入不同类型。然后,这些经过整理的监督信息将用于增强细胞相似性测量。自我监督信息的使用有助于提高聚类的准确性,因为它进一步完善了模型根据细胞内在相似性判别细胞类型的能力。






研究结果






Figure1



Figure1 DeepScena的工作原理


A DeepScena实现的编码器-解码器结构,模块1训练了基于NB模型的去噪卷积自编码器,以获得潜空间(latent space)U和潜空间中的初步聚类。模块2,根据成对数据的相似性来训练Mnet。


B 自上而下迭代应用DeepScena检测细胞亚群。


C DeepScena对多发性骨髓瘤细胞进行分层聚类。


D 细胞类型的下游分析。


Figure2



Figure2 DeepScena的性能和比较

adjusted Rand index(ARI) 

normalized mutual information(NMI)


A-B 每个数据集只使用第一个模块(基于NB的自动编码器)和使用两个模块(基于NB的自动编码器+MNet)的ARI(A)和NMI(B)比较。


C 八种聚类工具的ARI比较。


D 八种聚类工具的NMI比较。


ARI和NMI的定义,根据预测聚类 X = (X1, X2, ... , Xr) 和真实分区 Y = (Y1, X2, ... , Ys) 计算得出。这里,n 代表单元格数,nij 代表真实分区 Yj 中分配给预测聚类 Xi 的单元格数,ni 和 nj 分别代表 Xi 和 Yj 中的单元格数。




Figure3



Figure3 六种工具,不同随机失活率的表现


计算了三个数据集的ARI,在每个数据集中,DeepScena的ARI分数都优于其他五种方法。


A Bhattacherjee

B Tasic

C Zeisel


当丢弃水平从~80%提高到85%时,DeepScena在Tasic和Bhattacherjee上保持了不错的性能。

总之,结果表明DeepScena在分离和划分细胞群方面具有很高的潜力和超强的性能,不受高损耗水平的影响。


Figure4



Figure4 DeepScena可分层检测稀有细胞群


A DeepScena在顶层检测到十种细胞类型。


B 将兴奋神经元聚类为八个亚群。


C 将第2/3层锥体神经元聚类为七个亚群。


Figure5



Figure5 DeepScena可分离MM中的不同细胞类型

multiple myeloma (MM) 多发性骨髓瘤

将DeepScena应用于七名新诊断MM患者的5541个细胞,结果表明与原始标注相比,DeepScena中的转化潜空间在分离潜在细胞群方面的性能有所提高。


A 作者在潜空间上的标签。标记的10种细胞类型被分成几个小簇,尤其是CD14单核细胞(分布在三个独立的群组中)、T细胞(分布在四个群组中)和NK细胞(分布在三个群组中)。说明这三种细胞类型可以进一步聚集成细胞亚群。


B DeepScena对15种细胞类型的预测,很好地分离了CD14单核细胞、T细胞和NK细胞。


C 每种细胞类型中排名第一的标记基因的小提琴图,特别强调了对15种细胞类型中排名最靠前的15个DEGs的研究,这些DEGs中有许多是公认的免疫细胞标志物,例如在B细胞活化和体液免疫反应的启动中至关重要的CD79A。






阅读中有任何疑惑

或是想get同款思路

记得扫码添加雪球老师



总结

整个研究证明了DeepScena在检测罕见细胞类型方面的优异表现。利用scRNA-seq检测和研究这些罕见细胞类型的能力,拥有着巨大的潜力,能为了解各种组织和疾病的生物学特性提供新的视角,从而最终开发出新型的治疗方法和疗法。


不过,DeepScena的潜力不止于此,它的精确性和适用性仍然有进一步提高的空间。例如,可以扩大DeepScena的范围,整合多种单细胞组学数据集,如scATAC-seq或scMethyl-seq, 以全面了解细胞异质性和表观遗传调控。此外,还可以探索迁移学习技术,利用在大量数据集上预先训练好的模型,将其应用于样本有限的数据集,从而增强DeepScena的普适性。


DeepScena的功能也有扩展空间。它可被扩展适用于大量RNAseq数据和空间转录组学数据,从而更全面地了解组织内细胞的多样性。


想要高效发文的朋友们快来投奔挑圈联靠的站姐——雪球老师吧!跟着大部队走,这是生信发高分的最快途径了~


如果你想做机器学习思路相关的生信,想获得拆解的原文献,或者想收看最新的直播课程,就扫描下方二维码添加雪球老师微信获得更多资讯吧!


今晚的直播主题是「整好单细胞,实现从0到10的跨越」


现在添加雪球老师微信,回复“5.2”,即可获取原文~


继续滑动看下一个
挑圈联靠
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存