文件名称:数据治理-数据生命周期管理-大数据归档与销毁.pdf
文件大小:85KB
文件格式:PDF
更新时间:2022-12-24 15:49:30
文档资料
数据治理-数据⽣命周期管理-⼤数据归档与销毁 数据归档 在⼤数据时代,存储成本显著降低的情况,企业希望在技术⽅案的能⼒范围之内尽量存储更多的数据。但⼤数据时代同样带来了数据 的急剧增长,因此数据归档仍然是数据管理必须考虑的问题。与传统的数据备份和数据归档不同的是,⼤数据时代的数据归档更需要关注数 据选择性恢复的功能。 在⼤数据的正常运⾏过程中,热数据到温数据、温数据到冷数据的转换可以认为是归档的过程。在这个过程中,数据根据热度的变 化,从⾼价的设备上逐步转移到低价的设备上,其它访问性逐步降低,但仍然具有可访问性。 哪些数据需要归档?主要与监管法规的要求及企业的战略有关。传统的数据归档主要依据数据的数龄,在⼤数据时代,可依据数据的 热度或者依据数据的价值。企业根据监管法规的要求及企业的策略,明确热数据、温数据和冷数据之间的界限,确定企业的数据归档策略, 并依据该策略对数据进⾏归档处理。 不同的数据有不同的归档场景,制定某种数据的归档策略时,应该对数据使⽤的需求进⾏分析,根据分析的结果,结合法规、风险、 策略、访问成本,以及数据价值等⽅⾯,梳理数据的规范场景。数据归档实际上也是⼀个ETL的过程,为了保证归档后数据的可访问性,在 归档时需要考虑数据的存储、检索与恢复。 归档过程中,需要考虑数据压缩与格式转换的问题,在数据热度很低的情况下,从成本的⾓度,应该考虑对于数据进⾏压缩。压缩可 以通过⼿⼯,也可以通过⼀些数据库层级或者硬件层级的⼯具进⾏。数据压缩会导致访问困难。因此企业在明确哪些数据可以压缩的时候, 必须要有明确的策略。随着技术的发展,压缩的技术应尽量选择可选择性恢复的数据压缩⽅案。 ⾮结构化数据的归档,主要应该关注向数据注⼊有序的和结构化的信息,以⽅便数据的检索和选择性恢复。 数据销毁 随着存储成本的进⼀步降低,越来越多的企业采取了"保存全部数据"的策略。因为从业务和管理的⾓度。以及数据价值的⾓度上 讲,谁也⽆法预料未来会使⽤到什么数据。但随着数据量的急剧增长,从价值成本分析的⾓度,存储超出业务需求的数据未必是⼀个好的选 择。有时候⼀些历史数据也会导致企业的法律风险,因此数据的销毁还是很多企业应该考虑的选项。 对于数据的销毁,企业应该有严格的管理制度,建⽴数据销毁的审批流程,并制作严格的数据销毁检查表。只有通过检查表检查,并 通过流程审批的数据,才可以被销毁。