Kaggle 赛题解析 | AMP 帕金森进展预测

时间:2021-03-03 01:15:54

???? CSDN 叶庭云https://yetingyun.blog.csdn.net/


一、前言

竞赛题目:AMP®-Parkinson’s Disease Progression Prediction

Kaggle 赛题解析 | AMP 帕金森进展预测

竞赛地址:https://www.kaggle.com/competitions/amp-parkinsons-disease-progression-prediction

竞赛目标:本次比赛的目标是预测 MDS-UPDR 评分,该评分用于测量帕金森患者的病情进展。运动障碍学会赞助的统一帕金森病评分量表修订版 (MDS-UPDRS) 是对与帕金森病相关的运动和非运动症状的全面评估。您将开发一个模型,该模型以帕金森患者和正常同龄对照组中的蛋白质和肽水平随时间变化的数据为基础进行训练。您的工作可能有助于提供关于哪些分子在帕金森疾病进展过程中发生变化的重要突破性信息。

竞赛背景:

  • 帕金森病是一种致残的脑部疾病,影响运动、认知、睡眠和其他正常功能。不幸的是,目前还没有治愈方法,而且病情会随着时间的推移而恶化。据估计,到 2037 年,美国将有 160 万人患上帕金森病,经济成本将接近 800 亿美元。研究表明,蛋白质或肽异常在该病的发病和恶化中起着关键作用。通过数据科学更好地理解这一点,可能为开发减缓帕金森病发展甚至实现治愈的新型药物提供重要线索
  • 目前的努力已经获得了 10000 名受试者的复杂的临床和神经生物学数据,以便与研究社区广泛共享。使用这些数据已经发现了一些重要的发现,但仍缺乏明确的生物标志或治愈方法
  • 竞赛主办方——加速药物合作伙伴关系®帕金森病 (AMP®PD) 是由*、工业界和非营利组织组成的公私合作伙伴关系,通过美国国立卫生研究院基金会 (FNIH) 进行管理。该合作伙伴创建了 AMP®PD 知识平台,其中包括对帕金森病患者进行深度分子特征化和纵向临床分析,旨在确定和验证帕金森病的诊断、预后和 / {/} /或疾病进展生物标志物。
  • 您的工作可能有助于寻找治愈帕金森病的方法,从而减轻患者的巨大痛苦和医疗费用。

二、比赛说明

1. Evaluation

提交的作品将根据预测值和实际值之间的 SMAPE 进行评估。我们定义当实际值和预测值均为 0 时,SMAPE = 0。对于每次采集蛋白质/肽样本的病人就需要估算他们在该次访问时的 UPDRS 评分,并预测他们在可能的 6、12 和 24 个月后的任何访问中的评分。最终没有实现的访问的预测将被忽略。

您必须使用提供的 Python 时间序列 API 提交到这个竞赛,该 API 可以确保模型不向前窥视时间。要使用 API,请在 Kaggle Notebooks 中遵循此模板:

import amp_pd_peptide

env = amp_pd_peptide.make_env()             # initialize the environment
iter_test = env.iter_test()                 # an iterator which loops over the test files

for (test, test_peptides, test_proteins, sample_submission) in iter_test:
    sample_prediction_df['rating'] = np.arange(len(sample_prediction))       # make your predictions here
    env.predict(sample_prediction_df)       # register your predictions

2. Timeline

除非另有说明,所有截止日期均为当天 UTC 时间晚上 11:59。竞赛组织者保留更新比赛时间表的权利,如果他们认为有必要的话。

  • 2023 年 2 月 16 日 - 开始日期。
  • 2023 年 5 月 11 日 - 报名截止日期。您必须在此日期之前接受竞赛规则才能参加比赛。
  • 2023 年 5 月 11 日 - 团队合并截止日期。这是参与者加入或合并团队的最后一天。
  • 2023 年 5 月 18 日 - 最终提交截止日期。

3. Prize

  • 第 1 名 - 25,000 美元
  • 第 2 名 - 20,000 美元
  • 第 3 名 - 15,000 美元

4. Code Requirements

这是一场代码竞赛。竞赛作品必须通过 Notebooks 提交。为了使 “提交” 按钮在提交后处于活动状态,必须满足以下条件:

  • CPU Notebook <= 9小时运行时间。
  • GPU Notebook <= 9小时运行时间。
  • 禁用互联网访问。
  • 允许使用*和公开可用的外部数据,包括预训练模型。
  • 提交文件必须命名为 submission.csv。API 将为您生成此提交文件。

请参阅 Code Competition FAQ 以获取有关如何提交的更多信息。如果遇到提交错误,请查看代码调试文档。


三、数据说明

本次竞赛的目标是利用蛋白质丰度数据预测帕金森病 (PD) 的病程。PD 涉及的完整蛋白质组仍然是一个开放的研究问题,任何具有预测价值的蛋白质都值得进一步研究。数据集的核心包括从数百名患者的脑脊液 (CSF) 样本中获得的质谱读数导出的蛋白质丰度值。每个病人在多年的时间内贡献了多个样本,同时还进行了 PD 严重程度的评估。

本次竞赛是一个时间序列的代码竞赛:您将收到测试集数据,并使用 Kaggle 的时间序列 API 进行预测。

train_peptides.csv 是蛋白质质谱数据在肽水平上的表现形式,肽是蛋白质的组成部分。

  • visit_id - 访问的ID代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • UniProt - 相关蛋白质的 UniProt ID 代码,通常每个蛋白质有几个肽。
  • Peptide - 肽中所包含的氨基酸序列。请参考此表格中的相关代码。一些罕见的注释可能未包含在表格中。测试集可能包含在训练集中未发现的肽
  • PeptideAbundance - 样品中氨基酸的频率。

train_proteins.csv 是从肽水平数据聚合的蛋白质表达频率。

  • visit_id - 访问的ID代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • UniProt - 相关蛋白质的 UniProt ID 代码。通常每个蛋白质有几个肽。测试集可能包含在训练集中未发现的蛋白质。
  • NPX - 经过归一化的蛋白质表达。该蛋白质在样本中出现的频率。可能与组成肽的氨基酸并非一对一的关系,因为某些蛋白质包含重复的给定肽片段

train_clinical_data.csv 是临床相关的数据。

  • visit_id - 访问的 ID 代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • updrs_[1-4] - 统一帕金森病评分量表 (UPDRS) 第 N 部分的病人得分。较高的分数表示症状更为严重。每个子部分涵盖不同的症状类别,例如第 1 部分涵盖情绪和行为,第 3 部分涵盖运动功能。
  • upd23b_clinical_state_on_medication - 病人在 UPDRS 评估期间是否服用 Levodopa 等药物。预计主要影响第 3 部分(运动功能)的得分。这些药物的效果相当快(约为一天),因此病人在一个月内常常会两次接受运动功能测试,一次在服用药物的情况下,一次在未服用药物的情况下。

supplemental_clinical_data.csv 是没有任何跟脑脊液样本相关的临床记录。该数据旨在提供关于帕金森病的典型进展的额外背景。与 train_clinical_data.csv 相同的列。

example_test_files/ 里的文件旨在说明 API 功能的数据,包括 API 提供的相同列(即没有 updrs 列)。

amp_pd_peptide/ 里的文件使 API 能够运行。预计 API 能够在不到五分钟的时间内提供所有数据(少于 1000 个额外病人),并保留少于 0.5 GB 的内存。这里提供了 API 提供的简短演示。

public_timeseries_testing_util.py 是一个可选文件,旨在使自定义离线 API 测试更容易运行。有关详细信息,请参阅脚本的 docstring。


四、总结

竞赛题目:使用帕金森病患者的蛋白质和肽数据测量来预测疾病的进展

竞赛类型:数据挖掘、时间序列、回归预测

关键词:时间序列、帕金森进展预测、生物信息、数据分析、机器学习

Kaggle 赛题解析 | AMP 帕金森进展预测

赛题是一个典型的结构化数据预测赛题,拥有多张表,且是以患者作为样本,多了解一些相关的专业知识更好。

在解决题目时,需要考虑:

  • 支持多维输入的时序预测模型。
  • 模型训练和预测速度,以及可解释性。
  • 模型泛化性和鲁棒性。
  • 根据样本个数,应该是树模型和基础时序模型为主要的预测模型。