单细胞个性化分析之细胞通讯篇

时间:2024-12-10 21:47:36
作者,追风少年i

组织是一个有序的统一体,细胞与细胞之间不是割裂的存在,而是存在频繁的相互作用,这种相互作用,是通过配体细胞表达配体,配体作用于受体和受体细胞,从而引起受体细胞的生物学变化。正是因为这种频繁的相互作用,体现了细胞之间的有序统一,以及在受到疾病等外界刺激条件下对这种有序状态的影响和细胞之间交流的变化以应对这些刺激。为了分析细胞之间的相互作用,开发了很多方法,其中CellphoneDB[1]、CellChat[2]、NicheNet[3]最为经典,极大地促进了细胞交流的研究。

细胞通讯导论

多细胞生物是由不同类型的细胞组成的“社会”,而且是一个开放的“社会”,这个“社会”中的每个细胞必须协调他们的行为,为此,细胞建立通讯联络是必须的。如生物体的生长发育、分化、各种组织器官的形成、组织的维持以及各种生理活动的协调,都需要高度精确和高效的细胞间的通讯机制。

细胞之间的相互通讯是一个极其复杂的过程,通常指一个细胞发出的信息通过介质传递到另一个细胞产生相应的反应。细胞通讯中有两个基本概念:细胞信号传导和信号转导,前者强调的产生与细胞间的传送,而信号转导是接受与接收后信号转换的方式途径和结果。细胞有三种通讯方式:第一种通过化学信号分子,这是动物和植物最普遍采用的通讯方式;第二种通过相邻细胞表面分子的粘着;第三种通过细胞与细胞外基质的粘着。

细胞通讯基本过程:①信号分子的合成:一般的细胞都合成信号分子,而内分泌细胞是信号分子的主要来源。②信号分子从信号生成细胞释放到周围环境中:这是一个相当复杂的过程,特别是蛋白质类的信号分子,要经过内膜系统的合成、加工、分选和分泌,最后释放到细胞外。③信号分子向靶细胞运输:运输的方式有很多种,激素类主要是通过血液循环系统运送到靶细胞,而致密组织的信号分析则是释放到周围环境中影响周围的细胞。④靶细胞对信号分子的识别和检测:主要通过位于细胞膜或细胞内受体蛋白的选择性的识别和结合。⑤细胞对细胞外信号进行跨膜转导,产生细胞内信号。⑥细胞内信号作用于效应分子,进行逐步放大的级联反应,引起细胞代谢、生长、基因表达等方面的一系列变化。

细胞完成信号应答之后,要进行信号解除,终止细胞应答,主要是通过对信号分子的修饰、水解或结合等方式降低信号分子的水平和浓度以终止反应。示意图如下:

图1 细胞通讯示意图

而细胞之间的通讯,也成为了单细胞数据分析非常重要的一环。

单细胞通讯分析最常用的方法----CellphoneDB[1]

2020年Efremova M[1]等人发表的细胞通讯分析方法CellPhoneDB[1],是单细胞分析细胞通讯最常见的手段,引用率远远高于其他方法,目前已经更新到了3.0版本,可以分析空间转录组的生态位通讯,关于空间转录组的通讯分析放在空间转录组部分分享。

数据库

CellPhoneDB[1]配有详细的受配体数据库,其整合了此前的公共数据库,还会进行手动矫正,以得到更加准确的受配体注释。此外,针对受配体有多个亚基的情况,也进行了注释。下面这张图显示了CellPhoneDB[1]配有的数据库包含多少种分泌蛋白和膜蛋白、蛋白质复合物、受配体关系,以及它们来源于什么数据库。数据库唯一的缺点就是物种是人,小鼠或其他物种进行分析需要做基因转换。

图2 CellPhoneDB数据库示意图

CellPhoneDB[1]推断细胞通讯的原理

CellPhoneDB[1]分析细胞通讯需要两个前提条件----表达矩阵和细胞注释,对于ligand-receptor这个互作关系,计算clusterA里面ligand的表达均值,计算另一个clusterB中receptor的表达均值,二者的均值为MEAN;在随机更换细胞的label之后,依据新的标签,计算“clusterA”里面ligand的表达均值,"clusterB"中receptor的表达均值,再求一个平均值mean,这样的过程重复多次,就可以得到一个mean的分布,即null distribution,但是这里需要注意一个问题,上述讲到的通讯方向是clusterA→clusterB,当研究clusterB→clusterA的时候,即clusterB表达ligand,cluster表达receptor。MEAN在这个分布中所在的位置以及更极端的位置,构成的占比,就是p值(p值的定义)。所以CellPhoneDB推测两种细胞类型之间显著富集的受配体关系,本质上还是基于一个细胞类型里面的受体表达量,以及另一种细胞类型里面的配体表达量。此外,如果某种关系无处不在(在所有细胞类型之间都很明显),则无法识别是否显著。其中配受体在细胞类型中平均值的相乘,为细胞之间的通讯强度。

图3 CellPhoneDB分析细胞通讯原理

CellPhoneDB[1]分析的注意事项

(1)当分析的细胞数过多的情况下,会进行下采样分析,只分析1/3的细胞。

(2)当存在复合物的情况下,多亚基考虑表达低的那一个亚基

(3)配受体表达占比到达一定的阈值才会纳入分析,默认是10%。

CellPhoneDB[1]分析的可视化展示

CellPhoneDB内置了可视化展示的方法,文献中的示例如下:

但是这个展示方法有两个问题,1)右边的热图表示细胞类型两两之间的相互作用的数量,但沿着对角线左右是对称的,也就是说A-B与B-A的互作数目是一样的,这显然是不合理的;2)左边是具体受配体对,细胞对的互作气泡图,点的大小表示显著水平,颜色则是The means of the average expression level of interacting molecule 1 in cluster 1 and interacting molecule 2 in cluster 2,而没有说哪一个是受体哪一个是配体。

原因都和CellPhoneDB[1]内置的ligand-receptor互作关系对有关。CellPhoneDB[1]默认的展示方法不区分受体还是配体,对于配受体对gene1-gene2,可以是gene1配体gene2受体,也可以是gene1受体gene2配体,忽略了方向性。具体分析的时候,要注意方向性的问题。

单细胞通讯可视化最“美”的方法----CellChat[1]

异常值影响与CellChat[2]方法改进

在分析细胞通讯的过程中,分析细胞沟通交流强度容易受到异常值的干扰。由于单细胞数据的稀疏性,简单粗暴地采用平均值相乘的方法有欠合理,0值占比较大和异常高的表达值,都会显著影响分析的配受体通讯强度,为了解决这个问题,CellChat采用了4分位值的策略,计算方法如下:

其中 Q1、Q2 和 Q3 是细胞组中信号基因表达水平的第一、第二和第三四分位数。这种方法一定程度上抵消了异常值的影响。

CellChat[2]数据库特点

CellChat[2]的作者人工挑选了2021个经过验证的细胞通讯关系,构建了新的细胞通讯参考数据库————CellChatDB。1)它不仅考虑了多亚基受体情况,还收录了其他重要的信号辅助因子:可溶性激动剂,拮抗剂,共刺激和共抑制膜结合受体;2)其中48% 的相互作用涉及异聚分子复合物,25% 的相互作用从最近的文献中调研得到;3)此外,根据文献,每个配受体对都被手动分类为 229 个功能相关的信号通路之一;4)CellChatDB 包含来自 KEGG Pathway 数据库的信号分子相互作用信息,还包括来自最近实验研究的信息。

CellChat[2]通讯分析方法特点

(1) 首先使用显著性水平为 0.05(默认) 的 Wilcoxon 秩和检验确定给定 scRNA-seq 数据集中所有细胞组中差异表达的信号基因。

(2) 采用四分位值的加权平均的方法规避噪音的影响。

(3) Calculation of intercellular communication probability。

(4) 计算细胞间通讯显著性(置换检验,与cellphoneDB[1]相同)。

细胞通讯分析不仅仅受到了配体和受体的影响,还有mediators and key influencers,这部分分析CellChat[2]做了补充,结合配受体及其辅助因子的相互作用来模拟细胞间通讯。下图为CellChat[2]通讯分析示意图:

图5 CellChat通讯分析

CellChat[2]强大的可视化能力

CellChat[2]首先在cellphoneDB的基础上,考虑到了通讯的方向性,所以在热图和和选图的绘制上具有指向性,如下图:

图6 细胞通讯有向和弦图

同一个细胞类型既可以发送信号(信号的发送者,sender),也可以接收信号(信号的接收者,receiver)。CellChat[2]利用通讯网络分析中的out-degree, in-degree(out-degree:细胞作为信号的发送者,发出信号的概率之和;in-degree:细胞作为信号的接收者,接收信号的概率之和)推断细胞通讯过程中不同细胞组作为信号的发送者,接收者的强度。下图为通讯分析的信号强度散点图,点的大小与每个细胞组推断的配体和受体数量成正比,x轴和y轴分别表示细胞组作为信号发送者和接收者的强度。

图7 CellChat细胞通讯强度散点图

CellChat[2]可利用模式识别预测细胞间的协调反应。这种分析的输出是一组所谓的通讯模式(communication pattern),它将细胞组与信号通路连接起来。下图中,cell groups和signaling分别表示细胞组和信号通路,流动的厚度表示细胞组或信号通路对每个通讯模式的贡献。e图表示传出模式(outgoing patterns)下,细胞作为信号发送者如何相互协调,以及它们如何与某些信号通路协调以驱动通信; f图表示接受模式(incoming patterns)下,细胞作为信号接收者的信号来源,以及它们主要接受的信号类型。

图8 细胞通讯模式识别

当然,CellChat的可视化能力还远不仅如此,其中小提琴图、气泡图、和选图、热图留给大家去探索。

CellChat[2]多样本分析策略

如果拿到不同条件下的样本,通讯的差异往往是关注的重点,CellChat采用的多样本(多个样本条件)的分析策略是先分开单样本的进行通讯分析,然后研究细胞类型之间通讯的差异,目前已经得到了很多文献的支持。而这样本的思路,与NicheNet的分析策略有异曲同工之妙。

CellPhoneDB[1]与CellChat[2]分析上一个重要的共同点

在对数据集做通讯推断的时候发现,CellChat[2]和CellPhoneDB[1] 在配受体对数量和通讯probabilities方面始终捕捉到空间相邻细胞中比远处细胞更强的相互作用,这也是研究空间临近通讯的基础,有关空间临近通讯的内容,放在空间转录组部分介绍。

单细胞通讯考虑下游基因变化的方法----NicheNet[3]

一开始就提到过,如图1,细胞通讯最终的结果是导致受体细胞发生胞内变化,受体细胞调节自身的基因表达来响应这种信号,但是无论是CellPhoneDB[1]还是CellChat[2],都仅仅考虑配受体的表达变化而没有反映下游靶基因的响应,细胞之间的这种通讯是否真正起到了交流的作用,是一个值得深思的问题。

NicheNet[3]是一个计算不同细胞间相互作用的R包,通过细胞的表达数据与已知的信号和基因调控网络的相结合,预测相互作用细胞之间的配体-受体作用。通过将NicheNet[3]应用于肿瘤和免疫细胞微环境数,可以推断出活性配体及其对相互作用细胞的基因调控作用。

NicheNet[3]需要相互作用的细胞的人类或小鼠基因表达数据作为输入,并将其与通过整合信号通路而构建的模型相结合。与现有方法相反,NicheNet[3]的模型不止是配体与受体的相互作用,还整合了细胞内信号传导。因此,NicheNet[3]可以预测哪些配体影响另一种细胞中的表达,哪些靶基因受每种配体影响以及可能涉及哪些信号传导介质。

图9 NicheNet通讯网络示意图

上图内容基本概括了软件的优势,把配体,受体,靶基因联合起来进行分析。

NicheNet[3]的特点

(1)分析物种:人和小鼠(human or mouse gene expression data)

(2)NicheNet[3] 的先前模型超越了配体-受体相互作用,还包含了细胞内信号(先验知识更广)。

(3)NicheNet[3] 可以预测哪些配体影响另一个细胞中的表达,哪些靶基因受每个配体的影响以及可能涉及哪些信号传导介质(配体和靶基因的相互联系)。 NicheNet[3]先验模型

基于 NicheNet 的先验模型表明现有知识支持配体可能调节靶基因表达的强度,为了计算配体靶基因的调控潜能,关于配体到靶信号通路的综合生物学知识如下:

  1. 收集了涵盖配体-受体,信号转导和基因调控相互作用的多个互补数据源(cpdb,evex_expression,evex_signaling,kegg等19个来源(包含复合体))。

  2. 依据先验知识计算权重网络,验证配体-受体-靶基因之间的通讯网络关系,作者为了最大程度改进这个网络,也做了很多的优化,当然,准确度肯定更高。

  3. 计算了所有配体和靶基因对之间的调节潜力评分。为了计算这一点,使用集成网络上的网络传播方法来传播来自配体的信号,通过受体、信号蛋白和转录调节因子,以结束于靶基因,模型架构如下图:

图10 从配体受体、信号传导和基因调控数据源推断的相互作用网络

NicheNet[3]细胞互作算法特点

对于特定的配体,每个基因的信号重要性分数是通过在配体信号网络上应用个性化 PageRank (PPR,衡量重要度排名的一种算法) 来计算的,其中感兴趣的配体作为种子节点。其次,对配体的 PPR 向量应用了一个cutoff,这样只有与complete graph相比,配体的graph neighborhood中高度“富集”的基因才能获得nonzero importance scores,配体-基因信号重要性分数的 n × m 矩阵 用 n 计算感兴趣的配体数量,m 计算所有网络中的基因总数。

将 n × m 配体-基因信号重要性矩阵与集成基因调控网络的 m × m 加权邻接矩阵相乘,得到 n × m 配体-靶矩阵 L,其中 n 是考虑的配体数量,m 是推断的靶基因数量,其中 lij 是一个调节潜力评分,对应于特定配体 i 可以调节特定靶基因 j 表达的置信度。

总结,最佳的运用就是计算不同条件下相同细胞类型的差异基因,差异基因作为网络的靶基因,依据模型推断高活性的配体,分析细胞之间的有效通讯。下图为推断的配体活性结果。

图11 NicheNet配体活性的分析预测

NicheNet[3]与CellPhoneDB[1]或者CellChat[2]的联合使用

既然NicheNet[3]可以推断高活性的配体,那么结合CellPhoneDB[1]或者CellChat[2]的配受体分析结果进行选择,就可以达到优化细胞通讯分析的目的。这种联合的方法已经在文章皮肤麟癌[4]中得到了很好的运用。

图12 NicheNet联合CellPhoneDB分析细胞通讯效果图

配受体分析方法总结
细胞通讯软件 特点 数据库物种
cellphoneDB 包含配体、受体及其相互作用的数据库;考虑了配体和受体的结构组成,目前引用率做高的细胞通讯分析方法
Cellchat 包括229 个信号通路,将信号通路分为三类:Cell-Cell Contact,ECMReceptor,Secreted Signaling,可视化方面优势明显 人,小鼠
iTALK 将配体-受体注释为4大类:细胞因子、生长因子、免疫检查点和其他,只关注肿瘤和正常细胞的交流
NicheNet 整合了受体配体关系、信号通路、转录调控关系等多种来源的数据库,能够直接输出配体-受体-目标基因三者的相互关系 人,小鼠
rnamagnet 考虑到细胞之间的物理距离和细胞类型之间的通讯关系 小鼠
NATMI 分析通讯的特异性,通讯强度的变化 人,小鼠
ICELLNET 全局的、通用的、经过生物学验证的且易于使用的框架,用于从单个或多个基于细胞的转录组学中剖析细胞通讯 人,小鼠
scMLnet 细胞通讯联合TF因子 人,小鼠
写在后面

细胞通讯是单细胞分析非常重要的一环,对于研究细胞发育、疾病具有非常重要的意义。尤其在癌症样本的研究中,微环境之间的相互作用对于研究肿瘤的形成、发展、免疫细胞的反应等都具有极其重要的意义。但是不可忽略的是,真正的细胞通讯过程包括配体---受体--胞内信号方法---TF因子---靶基因,而且行使的过程中起作用的主要是信号蛋白,整个信号转换过程,配受体分析很多地方都是忽略的。

目前运用最多的三种方法,CellPhoneDB、CellChat、NicheNet,对于单细胞通讯的分析内容与方法都有了详尽的优化,能够满足分析中的几乎所有要求,但是同时也要注意,细胞通讯的研究是建立在细胞注释的基础之上,前期的注释分析仍然是非常重要的基础。

文献

[1] Efremova M, Vento-Tormo M, Teichmann S, Vento-Tormo R et : Inferring cell-cell communication from combined expression of multi-subunit receptor-ligand Protoc. 2020 Apr;15(4):1484-1506.

[2] Suoqin Jin,Christian F. Guerrero-Juarezet al. Inference and analysis of cell-cell communication using CellChat. NATURE COMMUNICATIONS.(2021) 12:1088.

[3] Robin Browaeys,Wouter Saelens,Yvan Saeys. NicheNet: modeling intercellular communication by linking ligands to target methods. 17, pages 159–162 (2020).

[4] [AL Ji](/s?wd=author:(AL Ji) &tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight=person),[AJ Rubin](/s?wd=author:(AJ Rubin) &tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight=person),[K Thrane](/s?wd=author:(K Thrane) &tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight=person), et al .Cell,Volume 182, Issue 6, 17 September 2020.

好了,已经分享给大家了,生活很好,有你更好