人工智能在单细胞组学、空间转录组学以及小分子药物研发中的最新综述|顶刊速递·24-10-19

时间:2024-10-19 20:12:51

小罗碎碎念

今天是周末,看点与病理不太相关的文献综述——单细胞&空间转录组学、细胞图谱以及小分子药物开发。

这些东西目前我都暂时没有精力投入去做,所以就没有办法像学习病理AI那样去深入分析它们。我是计划未来持续探索医学AI领域的,那么这些内容迟早会涉及,现在只是提前做一些知识储备。


一、单细胞与空间转录组学:深入解析细胞身份与组织结构

https://doi.org/10.1038/s41580-024-00768-2

一作&通讯

作者类型 姓名 单位名称
第一作者 Gunsagar S. Gulati 丹娜-法伯癌症研究所医学肿瘤科
第一作者 Jeremy Philip D’Silva 斯坦福大学生物医学数据科学系
通讯作者 Aaron M. Newman 斯坦福大学生物医学数据科学系、干细胞生物学与再生医学研究所等

文献概述

这篇文章综述了单细胞和空间转录组学技术的最新进展,探讨了它们在解析细胞身份、组织结构以及推动生物医学研究和临床应用中的挑战和前景。

文章主要讨论了单细胞转录组学(single-cell transcriptomics)和空间转录组学(spatial transcriptomics)技术的最新进展、挑战和前景,以及这些技术在识别和表征细胞状态和多细胞邻域方面的应用。

文章概述了单细胞转录组学如何扩展了我们对健康和疾病组织中细胞多样性和基因表达动态的理解。空间转录组学作为一项新兴工具,能够将单个细胞置于多细胞邻域中进行情境化,并识别空间上重现的表型。这些技术产生了大量数据集,提供了关于发育层次、细胞可塑性和多样组织微环境的新见解,并促进了单细胞分析计算方法的创新。

文章还讨论了样本处理、数据集成、识别微妙的细胞状态、轨迹建模、反卷积和空间分析等方面的最新进展。此外,文章探讨了深度学习在分析单细胞和空间转录组学数据中的应用,包括基础模型。最后,文章讨论了这些工具在干细胞生物学、免疫学和肿瘤生物学领域的应用,以及单细胞和空间转录组学在生物研究中的未来,以及其向临床的转化。

文章强调了单细胞和空间转录组学在生物医学研究中的重要性,并指出了在实验设计、数据处理和临床应用方面需要克服的挑战。作者们还讨论了如何通过机器学习和人工智能技术来分析和解释这些复杂的数据集,以及如何将这些技术应用于临床实践,以改善疾病治疗和患者预后


简要分析

图1提供了单细胞和空间转录组学研究的路线图,展示了从不同器官和物种中编目单细胞和空间转录组数据的过程。

image-20241019101909718

这幅图的核心内容可以概括为以下几个要点:

  1. 数据编目:研究者们正在从多种器官和物种中收集单细胞和空间转录组数据,这些数据被整理和编目,为进一步的分析提供了基础。

  2. 细胞状态和类型推断:通过分析单个细胞的RNA,研究者可以推断出细胞的状态、类型和发育轨迹。这有助于理解细胞的异质性和它们在不同生物学过程中的角色。

  3. 空间生态型:细胞不仅被单独研究,还被放置于它们所处的多细胞邻域中进行研究,这些邻域被称为空间生态型(spatial ecotypes)。空间生态型提供了细胞间关键相互作用的洞见,有助于揭示细胞如何在其微环境中相互作用和影响。

  4. 机器学习和人工智能的应用:机器学习和人工智能技术被应用于转录组数据,使得大规模数据分析成为可能。这些技术的应用不仅推动了新生物学发现,还促进了临床相关发现的产生。

总的来说,图1强调了单细胞和空间转录组学在揭示细胞多样性和细胞间相互作用中的重要性,并指出了机器学习和人工智能在加速这一领域研究进展中的关键作用。通过这些技术,研究者能够更深入地理解细胞在健康和疾病中的作用,为开发新的治疗方法提供科学依据。


关键问题

单细胞转录组学是如何帮助我们理解细胞异质性的?

单细胞转录组学(single-cell transcriptomics)通过在单细胞水平上测量基因表达,极大地增强了我们对细胞异质性的理解。

  1. 揭示罕见细胞类型在传统的批量(bulk)转录组学研究中,来自少数细胞类型的信号可能会被大多数细胞类型的表达模式所掩盖。单细胞转录组学可以检测到这些罕见的细胞类型,从而揭示之前未知的细胞亚群。

  2. 识别细胞状态的细微差别:单细胞转录组学可以捕捉到细胞状态的微小变化,这些变化在整体分析中可能不明显。这包括不同激活状态、分化阶段或对环境信号响应的细胞。

  3. 追踪细胞发育轨迹:通过分析单个细胞的转录组数据,研究者可以重建细胞的发育轨迹,理解细胞如何从一种状态转变为另一种状态,以及在这个过程中基因表达如何变化

  4. 分析细胞间的相互作用:单细胞转录组学可以揭示细胞如何在其微环境中相互作用,包括它们如何响应邻近细胞的影响,以及这些相互作用如何影响细胞行为和功能。

  5. 研究细胞可塑性:单细胞转录组学可以评估细胞的可塑性,即细胞在不同环境条件下改变其身份和功能的能力。这对于理解组织再生、疾病发展和治疗响应非常重要。

  6. 构建细胞图谱:通过系统地分析不同组织和器官中的细胞,单细胞转录组学有助于构建全面的细胞图谱,这些图谱可以作为研究和临床应用的参考资源。

  7. 疾病研究:在疾病研究中,单细胞转录组学可以揭示疾病特异性的细胞状态,帮助识别与疾病进展相关的细胞亚群,以及可能的治疗靶点

  8. 药物反应和毒性研究:单细胞转录组学可以用于研究细胞对药物的反应,包括药物的疗效和毒性,从而有助于药物开发和个性化医疗。

通过这些方法,单细胞转录组学不仅加深了我们对细胞异质性的理解,还为生物医学研究和临床实践提供了新的视角和工具。


二、小数据的大作用:促进个体实验数据与大型图谱的融合

https://doi.org/10.1038/s41592-024-02390-8

一作&通讯

作者角色 姓名 单位名称(中文)
第一作者 Kevin G. Johnston 加利福尼亚大学欧文分校
第一作者 Steven F. Grieco 加利福尼亚大学欧文分校
通讯作者 Qing Nie 加利福尼亚大学欧文分校
通讯作者 F* J. Theis 德国环境健康研究中心亥姆霍兹中心计算生物学研究所
通讯作者 Xiangmin Xu 加利福尼亚大学欧文分校

文献概述

这篇文章讨论了在生物学领域,如何通过整合个体实验室产生的小型数据集与大型参考图谱来提高研究效率和成本效益,并探索了利用小数据方法的未来方向。

文章讨论了在生物科学领域,除了大规模的“大数据”方法外,“小数据”方法的重要性和潜力。文章强调了将小型数据集与大型参考图谱整合的必要性,以便为个别实验提供背景,并探讨了在多个领域整合大型和小型企业规模图谱的进展及其潜在应用。

文章指出,尽管大型单细胞“组学”图谱已经成为常规,但这些数据集与个体实验室产生的数据相比仍然显得较小。这种差异随着时间的推移只会增加,因此需要新的整合方法来解决技术变异和生物变异,以及促进跨实验室的数据整合。

文章提到了一些尝试,如PanglaoDB、EMBL的单细胞表达图谱、Broad Institute的单细胞门户和CZI sciences的CZ CELL×GENE Discover等数据库,这些数据库旨在促进跨条件比较和分析。


文章还讨论了构建一个健壮且可访问的可更新综合图谱的挑战,包括RNA预处理的标准化、可更新图谱方法的选择、整合和验证机制以及计算资源的分配。文章提出了一些可能的解决方案,如使用基于神经网络的方法进行整合,以及采用类似于git的版本控制方法来管理图谱的更新。

此外,文章还探讨了在大型数据图谱中对“小数据”进行上下文化的具体用例,包括计算干扰分析、比较基因调控网络(GRN)分析和多物种整合用于转化医学。

最后,文章总结了小数据方法的未来展望,强调了科学家们可能会使用这些方法来协作训练模型和构建参考图谱,这将有助于自动化和标准化大脑组织的单细胞研究分析,并可能提高将基础科学发现转化为人类疾病治疗方法的能力。

文章还强调了存储、维护、整合和改进对现有数据库的访问的重要性,这对于使研究人员能够最大化他们个别实验的价值至关重要。


简要分析

Fig. 1 展示了构建一个可更新的综合细胞图谱的关键要素,以及集中式与分布式计算机制的对比。

image-20241019101943596

以下是对图表各部分的分析:

a. 构建细胞图谱的关键点:

  • 这部分强调了构建一个可更新的细胞图谱需要考虑的几个关键因素,包括预处理(如线粒体阈值设定和双重排除)、标准化的RNA处理、选择可更新的图谱方法、整合和验证机制,以及计算资源的分配。

b. 层次结构级别的图模型:

  • 这个图模型展示了不同类别(例如,分类学类别或模型生物集合)内的层次结构级别。黑色箭头表示不同级别之间的方向性关系,而蓝色线条则表示在每个层次级别上可能进行的跨生物体的整合比较。这种层次结构有助于在不同尺度上分析和比较细胞类型和状态。

c. 集中式与分布式计算机制的可视化:

  • 这部分对比了集中式和分布式计算机制。集中式计算机制可能涉及将所有数据和计算集中在一个中心位置,而分布式计算则可能涉及在多个位置进行数据和模型的训练,然后将结果整合到一个中心模型中。分布式计算对于保护数据隐私和减轻中心服务器的负担特别有用。

总体而言,Fig. 1 提供了一个关于如何构建和更新一个综合细胞图谱的视觉概述,包括了技术挑战、组织结构和计算策略。这种图谱的构建对于促进跨实验室和跨物种的细胞类型和状态的比较分析至关重要。


关键问题

细胞图谱在疾病研究中有哪些应用?

细胞图谱在疾病研究中的应用非常广泛,主要包括以下几个方面:

  1. 疾病基因的识别与靶点发现:通过对比健康和疾病状态下的细胞图谱,可以筛选出特定细胞亚群中与疾病基因相关的候选位点,揭示基因与疾病之间的联系。例如,在克罗恩病的研究中,通过比较受影响回肠中的细胞组成与健康参考图谱,发现了免疫和基质细胞的独特多细胞群落,这有助于预测对特定治疗的反应。

  2. 疾病机制的理解:细胞图谱可以帮助研究者在细胞和组织层面上理解疾病的机制。例如,通过分析炎症、自身免疫、神经退行性病变等不同疾病中的细胞组成和基因表达变化,可以揭示疾病的多细胞群落转移现象。

  3. 药物发现与开发:细胞图谱提供了疾病相关细胞类型的详细信息,这对于确定新药物的靶点、预测药物效果和毒性、开发新疗法至关重要。例如,通过分析肿瘤中的抗PD1反应的血液相关性,可以帮助开发新的癌症治疗方法。

  4. 诊断方法的改进:细胞图谱提供了高分辨率的细胞和组织信息,有助于开发新的诊断方法,更好地解释个人水平的结果。例如,使用血液免疫细胞的单细胞分析,已经确定了肿瘤中抗PD1反应的血液相关性。

  5. 再生医学和细胞治疗:细胞图谱增强了研究者在人类组织中恢复再生机制作为治疗靶点的能力,帮助药物发现开发更好的类器官模型,并定义更好的工程细胞疗法。

  6. 疾病治疗反应的预测:健康的细胞图谱在预测分子和细胞治疗的靶向毒性风险方面特别有效。例如,CD19靶向嵌合抗原受体T细胞的神经毒性可以通过CD19在不同细胞中的表达来进行预测。

  7. 跨物种比较:通过构建多物种的细胞图谱,可以比较不同物种对疾病状态和药物处理的反应,从而提高医学方法从基础科学到临床科学的转化能力。

  8. 疾病模型的建立:细胞图谱有助于建立疾病模型,指导预后和病情发展研究,尤其是在研究疾病发作、预后和进展方面。

这些应用展示了细胞图谱在疾病研究中的多样性和潜力,为未来的医学研究和治疗提供了新的方向和工具。


三、Pysodb:助力空间组学数据探索与可视化的Python平台

https://doi.org/10.1038/s41596-023-00925-5

一作&通讯

作者类型 姓名 单位名称
第一作者 Senlin Lin 中国科学院计算技术研究所,北京,中国。
通讯作者 Yi Zhao 中国科学院计算技术研究所,北京,中国。
通讯作者 Zhiyuan Yuan 复旦大学,教育部脑科学与智能技术前沿科学中心,中国。上海浦东医院,复旦大学,上海,中国。

文献概述

这篇文章介绍了Pysodb,一个用于在Python环境中高效探索和加载空间组学数据库(SODB)数据集的工具,它通过统一的数据格式和交互式可视化模块,促进了空间组学数据的管理和分析。

文章的核心内容是介绍了一个名为Pysodb的Python工具,它旨在提高从空间组学数据库(SODB)中探索和加载空间数据集的效率。Pysodb支持在Python环境中加载和探索空间组学数据,并且与AnnData格式兼容,这为存储和处理数据提供了统一的格式。

文章强调了Pysodb在数据管理和可视化方面的作用,并提供了七个案例研究,展示了如何使用Pysodb与不同的计算方法进行交互,确保实验数据的可重复性,并促进新数据和SODB中替代应用的整合。

此外,文章还提供了一个网站链接,供方法开发者参考,以便专注于计算模型,而不需要担心数据处理问题。


Pysodb的主要特点包括:

  1. 允许研究人员在Python环境中加载和探索空间组学数据。
  2. 与AnnData格式兼容,便于数据的存储和基准测试。
  3. 补充了其他专注于数据分析的软件包,如Scanpy、Squidpy和Giotto,提供了数据存储和处理的支持平台。

文章还讨论了Pysodb在空间组学数据分析中的应用,包括空间变量基因检测、空间聚类、伪时空分析、空间数据集成、空间数据对齐和空间点去卷积等。

此外,文章还探讨了Pysodb在不同类型的空间组学数据(如空间基因组学、蛋白质组学、代谢组学和多组学数据)上的通用性


文章的最后部分提供了一些补充信息,包括故障排除建议、预期结果和数据可用性。Pysodb是一个免费的软件包,其源代码可以在GitHub上找到。文章还提到了其他一些相关的研究和资源,如SOView可视化工具和SODB数据库。

总的来说,这篇文章为空间组学数据的分析提供了一个全面的指南,特别是对于那些在计算生物学领域经验有限的研究人员。通过使用Pysodb,研究人员可以更高效地管理和分析空间组学数据,从而推动该领域的研究进展。


简要分析

Fig. 1 提供了Pysodb协议的概览,展示了Pysodb如何在SODB和AnnData的支持下与多种分析方法相互作用。

image-20241019102035183

这些分析方法包括:

  1. 空间变量基因检测(案例研究1):识别在不同空间位置上表达量变化的基因。
  2. 空间聚类(案例研究2):将空间上相近或表达模式相似的细胞分组。
  3. 伪时空分析(案例研究3):分析细胞在空间上的分布,推断其在组织中的时空动态。
  4. 空间数据集成(案例研究4):整合来自不同样本或技术的空间数据,以获得更全面的组织视图。
  5. 空间数据对齐(案例研究5):将不同切片的空间数据对齐,重建3D组织结构。
  6. 空间点去卷积(案例研究6):从低分辨率的空间数据中推断每个空间点的细胞类型组成。

此外,该图还提到了Squidpy和Scanpy这两个工具,它们在空间组学数据分析中也有应用,并且它们的标识在图中得到了展示和授权使用。


关键问题

AnnData格式是什么?

AnnData格式是一种用于存储单细胞和空间组学数据的标准数据格式,它在Python编程语言中被广泛使用。AnnData格式的核心是一个名为AnnData的类,该类通常包含以下几个主要组成部分:

  1. 数据矩阵(Data Matrix):这是AnnData对象的核心,通常是一个二维数组(或矩阵),存储了基因表达量、蛋白质丰度或其他分子测量值。每一行代表一个细胞(或空间位置),每一列代表一个基因(或其他分子实体)。

  2. 变量注释(Variable Annotations):这是关于数据矩阵中每一列(即每个变量,如基因)的元数据。例如,这可能包括基因名称、基因ID等信息。

  3. 观测注释(Observation Annotations):这是关于数据矩阵中每一行(即每个观测,如每个细胞)的元数据。这可能包括细胞类型、组织来源、样本信息等。

  4. 未观察变量(Unobserved Variables):这可能包括未在数据矩阵中直接观察到的变量,例如通过技术预测或推断得到的变量。

  5. 位置信息(Spatial Coordinates):对于空间组学数据,AnnData对象还可以包含每个细胞或空间位置的坐标信息,这对于空间数据分析尤为重要。

  6. 额外的分析结果(Additional Analysis Results):AnnData对象可以存储各种分析结果,如聚类标签、差异表达分析结果、降维分析(如PCA、t-SNE、UMAP)的结果等。

AnnData格式的设计旨在提供一个灵活且高效的数据结构,以支持复杂的数据操作和分析流程。由于其在单细胞和空间组学数据分析中的广泛适用性,AnnData已成为该领域内许多流行工具和库的标准数据输入/输出格式,例如Scanpy、Squidpy和Pysodb等。


四、机器学习在小分子药物开发中的应用:数据质量与挑战

https://doi.org/10.1038/s43588-024-00699-0

一作&通讯

作者角色 姓名 单位名称 单位翻译为中文
第一作者 Guy Durant Department of Statistics, University of Oxford 牛津大学统计系
通讯作者 Charlotte M. Deane Department of Statistics, University of Oxford 牛津大学统计系

文献概述

这篇文章讨论了机器学习在小分子药物发现中的挑战,强调了数据质量和数量的重要性,并提出了改进数据使用和验证方法的建议。

文章的主要观点是,尽管机器学习(ML)技术在其他领域取得了显著的成功,但在小分子治疗药物开发中的应用进展却相对缓慢。作者提出,相比于开发更先进的算法和架构,未来的进步更可能由训练和基准测试这些模型所使用的数据的质量所驱动

文章指出,小分子治疗药物占全球批准药物的90%,但开发过程极具挑战性,且成本和时间都在不断增加。机器学习被寄予厚望,能够通过从数据中直接识别和建模模式来降低成本和加快药物开发的速度。然而,ML在小分子药物发现中的应用并没有显示出与其他领域相同的成功,部分原因是现有方法在训练数据之外的数据上泛化能力不佳,且在其他基准测试上的表现往往不尽如人意

文章强调,为了推动ML在小分子药物研究中的应用,需要更多地关注数据的质量和数量。作者提出了几个关键挑战,包括小分子数据的稀缺性、数据结构问题、负数据的缺乏、新的数据源的开发以及数据质量的问题。文章还讨论了如何通过数据增强方法、数据抓取、众包数据和联邦学习等方法来增加数据量,并建议采用更严格的验证方法来确保模型的改进是有意义和可验证的。

最后,文章得出结论,要实现ML在小分子治疗药物开发中的潜力,需要平衡关注模型开发的各个方面,从ML架构到它学习的数据,以及我们如何验证改进。作者认为,尽管存在挑战,但ML在小分子药物发现中的未来仍然是光明的


简要分析

Fig. 1 展示了三个不同的机器学习基准测试(CASF-2016、USPTO-50k 和 HIV MoleculeNet)随着发表日期的变化而性能如何变化。

image-20241019102128868

每个基准测试都使用了不同的性能指标:

  1. CASF-2016 (a):使用皮尔逊相关系数(Pearson’s R)来衡量预测的结合亲和力与真实结合亲和力之间的线性相关性。这个指标反映了模型预测的准确性。

  2. USPTO-50k (b):使用top-1准确率来衡量,即最高信心反应正确的百分比。这个基准测试用于验证一步逆合成工具,预测从美国专利局(USPTO)抓取的化合物的反应物。

  3. HIV MoleculeNet ©:使用接收者操作特征曲线下面积(AUROC)来衡量,这是在不同阈值下分类是否结合的性能度量。AUROC是一个统计指标,用来评价分类模型的性能,特别是在不平衡数据集上。

图中的论文根据所使用的机器学习架构进行着色,并且每个图表左上角都给出了发表日期与基准指标之间的皮尔逊相关系数(ρ)。


关键问题

肿瘤治疗中常用的小分子治疗药物有哪些?

肿瘤治疗中使用的小分子治疗药物种类繁多,它们通过不同的机制来抑制肿瘤的生长和扩散。

以下是一些常用的小分子治疗药物的例子:

  1. 酪氨酸激酶抑制剂

    • 伊马替尼(Imatinib,商品名Gleevec/Glivec):用于治疗慢性髓性白血病(CML)和其他一些类型的癌症。
    • 埃罗替尼(Erlotinib,商品名Tarceva):用于治疗非小细胞肺癌(NSCLC)。
  2. 抗雄激素药物

    • 比卡鲁胺(Bicalutamide,商品名Casodex):用于治疗前列腺癌。
  3. 芳香酶抑制剂

    • 来曲唑(Letrozole,商品名Femara):用于治疗雌激素受体阳性的乳腺癌。
  4. mTOR抑制剂

    • 依维莫司(Everolimus,商品名Afinitor):用于治疗某些类型的肾癌、乳腺癌和神经内分泌瘤。
  5. CDK4/6抑制剂

    • 帕博西尼(Palbociclib,商品名Ibrance):用于治疗某些类型的乳腺癌。
  6. Hormone therapy agents

    • 他莫昔芬(Tamoxifen,商品名Nolvadex):用于治疗雌激素受体阳性的乳腺癌。
  7. 拓扑异构酶抑制剂

    • 伊立替康(Irinotecan,商品名Camptosar):用于治疗结直肠癌。
  8. 血管生成抑制剂

    • 贝伐珠单抗(Bevacizumab,商品名Avastin):用于治疗多种类型的癌症,包括转移性结直肠癌、非小细胞肺癌和肾细胞癌。
  9. 免疫检查点抑制剂

    • 帕博利珠单抗(Pembrolizumab,商品名Keytruda):用于治疗多种类型的癌症,包括黑色素瘤和非小细胞肺癌。
  10. 蛋白酶体抑制剂

    • 硼替佐米(Bortezomib,商品名Velcade):用于治疗多发性骨髓瘤。

这些药物通常作为单一疗法或与其他癌症治疗方法(如化疗、放疗、免疫疗法或手术)结合使用。每种药物的适应症和使用方式可能会有所不同,需要根据患者的具体情况和医生的建议来确定。此外,随着新药的不断开发和临床试验的进行,还会有更多的小分子药物被引入市场。