【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,

时间:2024-05-18 17:51:54

Transfer Learning based Failure Prediction for Minority Disks in Large Data Centers of Heterogeneous Disk Systems,ICPP,2019

作者 张霁 华中科技大学博士
想了解他?请戳这里

注:论文已上传至资源,需要的童鞋可免费下载。

论文主要提出了基于”迁移学习+少数磁盘故障预测”的TLDFP模型。
主要采用了TrAdaBoost(权重调整的迁移学习方法)的思想。

【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,2019

一、摘要及介绍

1、背景

大型数据中心的存储系统通常建立在数千甚至数百万个磁盘上,磁盘故障时有发生。如果丢失的数据无法恢复,磁盘故障可能导致严重的数据丢失,从而导致系统不可用甚至灾难性后果。在大规模的存储系统场景中,随着时间的推移,大量的新磁盘逐渐进入存储系统,替换出故障磁盘,导致存储系统由来自不同供应商的异构磁盘和来自同一供应商的不同型号的磁盘组成

2、研究对象

少数磁盘:来自不同供应商/来自同一供应商的不同型号的少量新磁盘

3、目标

降低丢失数据的风险,同时降低与恢复故障磁盘上的数据相关联的数据恢复成本

4、创新驱动

1) 由于缺乏足够的训练数据,传统的机器学习方法无法在由异构少数磁盘组成的演化存储系统中提供令人满意的预测性能,且会产生过拟合问题
2)磁盘固有的自监测、分析和报告技术(SMART)技术采用“阈值方法”,但仅实现3%-10%的故障检测率(FDR),0.1%的错误报警率(FAR)

5、方法

1)提出基于迁移学习的少数磁盘故障预测模型TLDFP
2)首先提出了一种基于KLD值的新方法来选择合适的多数磁盘模型
3)发展了一种基于KLD值的少数磁盘模型的方法进行跨磁盘模型的故障预测,随着不同磁盘模型逐渐被放入现实的存储系统中替换出故障磁盘,具有重要的实际应用价值

6、实验及结果

在两个真实数据集Backblaze和腾讯上的评估结果表明,与四种流行的基于传统机器学习的算法GBRT(迭代决策树)、RGF(正则化贪心森林)、SVM(支持向量)和RNN(循环神经网络)和两种最新转移学习方法SSDB和TLBN(没有搜到)的预测模型相比,TLDFP能够提供更精确的结果。

二、主要内容

1、研究历程

【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,2019

2、相关背景知识

每个SMART属性项由五个元素组成,这些元素被描述为元组。

• ID:SMART属性的指定序号。

• 标准化:当前或上一个标准化值(大多数标准化为制造商特定算法使用原始值计算的最佳值253和最差值1之间的值)。

• 原始值:传感器和供应商提供的计数或物理状态对应的原始值。

• 阈值:磁盘报警故障时超过的阈值。

• 最差:给定属性的最低或最差值。

3、研究目标

(1) What:在故障预测方面,少数磁盘数据集的定义是什么?
【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,2019

(2) Why:为什么我们要使用迁移学习来预测少数磁盘的故障?
【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,2019
【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,2019
【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,2019

(3) How:如何利用迁移学习方法预测少数磁盘故障?
【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,2019
【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,2019
(4) When:何时使用迁移学习进行少数磁盘故障预测?
【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,2019

4、实验部分

【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,2019
【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,2019
【论文分析】TLDFP,TradaBoost ,Ji Zhang,ICPP,2019

博主研究方向为时间序列的异常检测,欢迎交流。最近正在做磁盘时间序列的异常检测。正在复现本篇TrAdaBoost论文(采用BackBlaze磁盘数据)。知识浅薄,欢迎指正交流~