机器学习分析scRNA-seq解析急性髓系白血病中的疾病和免疫过程

时间:2024-11-12 15:13:41

急性髓性白血病(AML,Acute myeloid leukemia)是一种存在于复杂微环境中的疾病。作者基于scRNA-seq分析了来自40例骨髓抽吸donor的38,410个细胞,包括16例AML患者和5例健康donor。然后,应用机器学习分类器来区分恶性细胞类型。

发现:细胞类型组成与原型遗传病变相关。原始AML细胞表现出与干细胞和髓系启动基因共同表达的转录程序失调,并具有预后意义。分化的单核细胞-like AML细胞在体外表达多种免疫调节基因并抑制了T细胞活性。

来自:Single-Cell RNA-Seq Reveals AML Hierarchies Relevant to Disease Progression and Immunity, Cell, 2019

目录

  • 背景概述
  • 健康骨髓样本的细胞群鉴定
  • AML肿瘤生态系统的sc图谱分析
  • 机器学习分类器区分恶性细胞和正常细胞
  • 恶性AML细胞的肿瘤内异质性
  • AML细胞等级与潜在的遗传改变相关
  • 原始AML细胞中转录程序失调

背景概述

急性髓系白血病(AML)是一种侵袭性血癌(容易侵袭到周围组织和器官),其特征是髓系未成熟细胞的积累。虽然大多数患者最初对化疗有良性响应,但75%的患者在诊断后5年内复发并死于各种疾病。

AML细胞多样性的一个来源是髓细胞-myeloid发育的部分再现。正常的造血干细胞(HSCs,hematopoietic stem cells)产生成熟的髓系-myeloid、淋巴系-lymphoid和红系-erythroid/巨核系-megakaryocyte 血细胞。AML肿瘤也包括原始细胞和分化细胞。原始AML细胞,通常被称为白血病干细胞(LSCs,leukemia stem cells),维持疾病状态并表现出干细胞特性,如自我更新、治疗抵抗。分化的AML细胞缺乏自我更新能力,但具有对肿瘤微环境或造血功能的病理作用。

AML的疾病进展受微环境中正常细胞的影响。AML细胞的内在特性,包括免疫调节因子的表达和外部微环境变化,可导致抑制性T调节细胞(T-reg)的积累,并损害细胞毒性T淋巴细胞(CTL)的激活。增强T细胞介导的AML细胞清除是一种有吸引力的治疗策略,但免疫治疗试验在相比其他癌症中的成功程度,AML治疗效果并不好。这也突出了探索AML微环境中免疫抑制的细胞成分和机制的迫切需要。

  • 注意:恶性细胞和间质细胞共同塑造微环境,恶性细胞可以诱导间质细胞产生特定的细胞因子,这些因子反过来又促进肿瘤的生长和转移,因此,现在研究人员正在探索以间质细胞为靶点的治疗方法,以克服肿瘤细胞对传统化疗药物的耐药性。例如,通过调控CAFs(癌症相关成纤维细胞)来抑制肿瘤的生长和转移,已成为肿瘤治疗的新手段。

scRNA-seq提供了表征肿瘤中恶性-malignant和间质-stromal细胞群的有力手段。然而,AML面临着独特的挑战,这与肿瘤生态系统中恶性细胞和正常细胞之间复杂的分化层次和相似性有关。为了全面分析AML异质性,作者采用基于纳米孔的技术-nanowell-based technology 从骨髓(BM)抽吸物中获取数千个单细胞的转录和突变数据。作者通过scRNA-seq分析了来自16名AML患者的30,712个细胞和来自5名健康donors的7,698个细胞。将这些数据整合到一个机器学习分类器中,该分类器区分了恶性细胞和正常细胞,并确定了六种恶性AML细胞亚型,它们沿着HSCs向髓细胞-myeloid分化的空间投影。作者利用这一资源将发育等级与基因型-genotypes联系起来,评估原始AML细胞的特性和预后意义,并鉴定具有免疫调节特性的分化AML细胞。

健康骨髓样本的细胞群鉴定

为了表征健康骨髓(BM)的基线细胞多样性,作者使用基于高通量纳米孔的方案(称为Seq-Well)进行了scRNA-seq测序。分析了来自4个健康donor(21-56岁)的存活冷冻细胞和来自第五个健康donor的富集祖细胞(CD34+ CD38 -和CD34+)。获得了7698个健康donors的骨髓细胞的高质量数据。

使用BackSPIN无监督聚类来区分细胞类型(图1A)。有注释细胞群建立在已知markers上,如HSC/Prog细胞簇的CD34,单核细胞-monocytes的CD14和T细胞-T cell的CD3(图1B)。这使我们能够将31个聚类簇合并为15个主要细胞群。作者捕获了广泛的细胞类型,包括造血干细胞和祖细胞,以及多发性髓系、红细胞和淋巴细胞。所有15种细胞类型在至少3个donor中被鉴定出来(图1C)。

接下来,通过可视化KNN图来探索这些细胞类型之间的关系(k=5)。这揭示了假定的分化轨迹,包括从造血干细胞-HSCs到单核细胞-monocytes的连续细胞分化,具有几种中间状态(图1D)。因此,正常骨髓的scRNA-seq揭示了不同的造血细胞类型,并暗示了与当前研究观点一致的分化轨迹。
fig1

  • 图1A:左侧是聚类簇,右侧是注释的15种细胞大类
  • 图1B:热图显示了通过backspin定义的簇(列)排序的6195个单细胞中55个选定的细胞类型特异性基因的表达(行)
  • 图1C:堆叠barplots显示了5个正常BM donors中backspin定义的细胞类型的占比
  • 图1D:所有健康BM细胞的knn图,反映分化轨迹

AML肿瘤生态系统的sc图谱分析

为了检查AML的细胞多样性,作者从16名AML患者在诊断和治疗期间获得了35个冷冻保存的BM抽吸物(图2A)。队列中所有样本的Targeted DNA sequencing显示了预期的变异频率(选择特定的基因区域进行测序),包括DNMT3A(44%的患者),FLT3(31%患者)和NPM1 (31%患者),(图2B) 。作者对这35个样本进行了scRNAseq分析,以获得AML肿瘤生态系统的广泛概述。
fig2ab

  • 图2A:AML患者和骨髓抽吸收物概述。对于每个病人,饼状图显示了样本收集的时间。
  • 图2B:图表显示了通过靶向DNA测序在队列中检测到的遗传变异(红色)。

作者使用 t-SNE 获得了每个患者的 30,712个细胞的可视化。t-SNE 揭示了不同的细胞类型,并且各类细胞比例在临床过程中显著变化(图2C和2D)。除了恶性细胞外(malignant cells),这些数据还揭示了肿瘤生态系统中正常造血细胞类型的基因,如血红蛋白-hemoglobin(红细胞-erythroid cells)和CD3 (T细胞-T cell)。诱导化疗后收集到的样本以T细胞和NK细胞-natural killer cells为主。虽然其他细胞群也表达与特定造血细胞类型相关的marker,但它们的正常或恶性身份依然难以从它们的表达中区分出来。因此,作者探索了区分恶性AML细胞的其他方法。

fig2cd

  • 图2CD:t-SNE图显示连续收集的AML556-图C或AML707B-图D的细胞数据。每个plot显示来自指定时间点(红色)的细胞和其他时间点(灰色)的细胞。t-SNE图和相应的H&E染色图描绘了在呈现时(第0天)以AML细胞为主的骨髓,化疗后(15-18天)含有T细胞的骨髓,或重新填充的造血(31-41天)。

机器学习分类器区分恶性细胞和正常细胞

接下来,作者整合了所有患者的数据,目的是区分恶性细胞和正常细胞。由于只有一小部分细胞具有基因分型注释(来自作者设计的新测量技术用于实现基因分型),因此进行如下操作:

  • 首先,选择所有单细胞基因分型检测到的AML细胞。
  • 然后,使用随机森林机器学习算法根据与所有15种正常BM细胞类型的相似性对这些选择出的恶性细胞进行分类(图4A)。绝大多数突变细胞类似于沿HSC至髓系-myeloid的六种正常细胞类型(HSC、祖细胞-progenitor、GMP、祖细胞-promonocyte、单核细胞-monocyte,常规树突状细胞cDC,conventional dendritic cell)中的一种(图4B和4C)。
  • 因此,作者注释了检测到突变的细胞,这些细胞沿着分化轨迹被分类为HSC-like、progenitor-like、GMP-like、promonocyte-like、monocyte-like或cDC-like恶性细胞。然后将这些恶性细胞类型作为附加类合并到第二个分类器中,该分类器用于将数据集中的所有AML细胞注释为恶性或正常(图4A, 4D和4E)。

总的来说,作者检测到13489个恶性AML细胞(44%的细胞)。在任何肿瘤中,被分类为恶性的单细胞比例与临床细胞计数比例一致(r = 0.93;图4F)。总之,这些数据验证了在AML肿瘤中区分恶性和正常细胞类型的随机森林的准确性。

fig4a-f

  • 图4A:机器学习分类器的示意图,用于预测AML细胞类型(分类器1)和区分AML肿瘤中的恶性细胞和正常细胞(分类器2)。第一分类器输入的Cells with mutations即为,作者设计的新测量技术用于实现基因分型,发现的少量恶性细胞。
  • 图4B:KNN可视化显示正常BM的单细胞转录组(灰色)。基因分型检测到的AML样本的细胞根据其与正常细胞的相似性被投影到此图上。具有突变转录本的细胞(红色)沿着HSC向髓细胞分化轴突出。
  • 图4C:柱状图显示了第一随机森林分类器对具有突变转录本的AML细胞的分类。大多数被归类为沿HSC至髓系轴的六种细胞类型之一,因此定义了六种恶性细胞类型。
  • 图4D-E:AML556-图D和AML707B-图E的t-SNE,细胞按其分类分为恶性(红色)和正常(灰色)。
  • 图4F:散点图将临床细胞计数(y轴)与机器学习分类器分类为恶性的细胞比例(x轴)进行比较。每个点对应一个特定的AML BM抽吸物。

恶性AML细胞的肿瘤内异质性

目前,大家使用细胞表面marker对肿瘤内异质性进行了广泛研究。然而,这种方法依赖于预定义的marker,这些marker可能不能准确地代表潜在的转录程序,并且可能在恶性细胞和正常细胞中都表达。因此,作者探索了无偏转录组分类的潜力,以提供额外的见解。分类器识别的六种恶性细胞类型在数据集中至少有1000个细胞代表,并且在至少10例患者中被识别出来。

然而,各个AML亚型的相对丰度在不同肿瘤之间存在显著差异,有些主要由一种或两种细胞类型组成,而另一些则包含一系列恶性细胞类型(图4G、4H)。分类器估计的细胞型丰度与临床参数密切相关(图4I)。例如,AML707B有很高比例的细胞被分类为GMP-like,这与流式细胞测量技术显示低水平的髓细胞分化标志物一致。scRNA-seq数据显示了比有限数量的marker更广泛的恶性细胞多样性。例如,AML921A和AML329代表所有六种恶性细胞类型,包括cDC-like细胞(图4G-4I)。因此,scRNA-seq数据与临床参数一致,但提供了更多关于AML细胞类型和分化状态的详细信息

fig4ghi

  • 图4G:热图显示了来自五个代表性肿瘤患者的所有恶性细胞(列)的细胞类型预测分数(行)。检测到野生型(wild-type,Wt)和/或突变转录的细胞或表达细胞周期特征基因的细胞如下所示。
  • 图4H:kNN可视化显示正常骨髓细胞的单细胞转录组-灰色。根据其与正常细胞的相似性,将来自各自AML患者的恶性细胞投影到此图上。投影细胞的密度(红色)表达了这些肿瘤不同的细胞类型组成。
  • 图4I:流式细胞术图显示AML样本中骨髓分化标志物的表达。

AML细胞等级与潜在的遗传改变相关

作者使用scRNA-seq数据来获得六种恶性细胞类型的基因特征(表S3)。这些特征被设计为对每种恶性细胞类型进行同等权重,并排除在AML肿瘤中普遍存在的正常细胞类型中表达的基因。作者使用从癌症基因组图谱(TCGA)中对179例AML抽吸物的大量表达谱进行评分,从而推断出它们的细胞类型组成。

fig5FG

  • 图5F:热图显示了179个AML样本中6种恶性细胞类型的180个特征基因的表达(行)。无监督聚类揭示了7个不同推断细胞型丰度的患者亚群(聚类A-G)。
  • 图5G:图表显示了F中AMLs的染色体畸变(上)、突变(中)和FAB分类(下)。细胞类型组成和遗传学之间的对应关系是显而易见的。
  • 这些结果都是根据(表S3)获得的特征gene+TCGA实现的。

通过这些特征对TCGA AMLs进行分层聚类,揭示了具有不同恶性细胞型组成的7个肿瘤簇(图5F)。一些簇包括具有高丰度的特定细胞类型的肿瘤,如GMP-like细胞(簇A和B)、progenitor-like细胞(簇D)或monocyte-like细胞(簇E)。其他簇包括沿HSC到髓系的恶性细胞类型谱(簇G)。这些推断表明细胞类型组成和发育层次的显著差异。

原始AML细胞中转录程序失调

接下来,作者将重点转向原始AML细胞类型,它们促进肿瘤生长。可以发现,与正常细胞相比,原始AML细胞上调了参与应激反应和氧化还原信号(XBP1、GPX1)、增殖(FLT3、PIM1、MYC)和自我更新(HOXA9、BMI1)的基因(图6A)。作者还评估了优先表达的表面marker,因为这些marker为靶向治疗提供了机会。这突出了已建立的LSC marker,如CD96、CD47和IL1RAP(图6B),以及其他候选marker,如CD36和CD74。

fig6ab

  • 图6A:散点图通过基因在恶性HSC/Prog-like细胞中相对于正常细胞的优先表达(x轴)以及它们与恶性细胞中HSC/Prog预测评分的相关性(y轴)来定位基因(点)。右上方的基因在恶性HSC/ prog-like细胞中优先表达(红色)。
  • 图6B:热图显示正常骨髓细胞(左)或AML抽吸的恶性细胞(右)中表面marker(行)的表达。

为了进一步联系原始恶性细胞和正常细胞的分化状态,作者生成了三个代表正常造血发育连续阶段的基因特征:HSC/Prog(包括MEIS1、NRIP1、MSI2)、GMP(包括MPO、ELANE、AZU1)和分化骨髓-differentiated myeloid(包括LYZ、MNDA、CD14)。正如预期的那样,将这些特征应用于正常BM的单个细胞,可以清楚地区分HSC/Prog、GMP和分化的骨髓细胞的主要细胞亚群(图6C和6D)。然而,当将这些特征应用于恶性AML细胞时,出现了一种独特的模式。HSC/Prog marker基因和GMP marker基因在同一恶性细胞中经常共表达,与正常造血中的专一性形成明显对比。恶性HSC/Prog-like细胞也表达髓细胞特征,如MPO和ELANE,这在正常HSC/Prog细胞中是不存在的。

fig6CD

  • 图6C:热图显示HSC/Prog、GMP或分化骨髓细胞的正常BM来源特征基因的表达,正常骨髓细胞(左)或恶性AML细胞(右)。细胞按照它们的分类器预测分数排序(上)。
  • 图6D:该图显示了30个正常BM来源的HSC/Prog marker基因(红点)与正常或恶性细胞的GMP预测评分的相关性。右:该图显示了30个正常BM来源的GMP marker基因(蓝点)与正常或恶性细胞中HSC/Prog预测评分的相关性。恶性细胞中HSC/Prog基因与GMP基因异常相关。

最后,作者考虑了原始AML群体的临床意义。在队列中,肿瘤中HSC/ prog-like细胞和GMP-like细胞的相对比例明显不同。因此,使用这些恶性细胞类型的特征对179个TCGA AMLs进行评分。这些特征在大量表达谱中呈负相关(r = -0.24,图6E),验证了原始AML细胞在不同肿瘤间的发育状态不同的观察。作者将AML分为HSC/ prog-like基因较高表达组(n = 98)和GMP-like基因较高表达组(n = 81)。发现具有较高HSC/ prog-like信号的患者,其肿瘤可能含有更多的原始LSCs,其预后明显较差(图6F)。虽然之前的研究将干细胞特征与AML结果相关联,但单细胞数据表明,特定的HSC/ prog-like细胞状态和转录程序可能是这些关联的基础,需要进一步研究

fig6ef

  • 图6E:将HSC/Prog-like和GMP-like特征应用于TCGA RNA-seq谱。热图显示了179个AML谱(列)中60个特征基因(行)的表达。
  • 图6F:Kaplan-Meier曲线显示了179例AML患者的生存率。HSC/ prog-like评分较高的患者预后较差。