大规模分布式存储系统(云存储)作者blog

时间:2021-02-13 21:50:46

http://www.nosqlnotes.net/

技术杂谈

10年定下近几年的技术方向:

1, 精通架构:深入理解线上,线下分布式存储&计算并能够形成完整的知识体系;

2,理解系统:理解系统,网络,IDC,虚拟化等相关知识;

3,掌握应用:通过应用证明和修正分布式知识体系;

11年做了一些事情:

1, 思考并讨论Google,Amazon,Microsoft,Yahoo,Facebook内部云存储系统的架构及实现,在云存储方向形成了初步的知识体系;

2, 读了一些系统和网络方面的博客和书籍,如褚霸同学的博客,<<Unix网络编程>>,等等;

3, 通过推广OB学习了很多应用的入门知识,主要包括数据库应用,OLAP应用,搜索广告应用;

12年准备做一些事情:

1, 整理一本云存储技术资料;

2, 深入学习并实践系统优化相关知识,重点是CPU&内存优化;

3, 理解淘宝数据库OLTP应用访问模式,深入理解OLAP应用业务知识;

云存储观点

1, 根据应用模式及实现难度,可以大致将云存储系统分为四类:Blob存储系统(淘宝TFS,Facebook Haystack),分布式KV系统(淘宝Tair,Dynamo),分布式表格系统(Bigtable,Megastore,Azure Table Storage)以及分布式数据库(SQL Azure,Amazon RDS)。

2, 云存储直接提供对外服务时机还不成熟,创业者期望的只是一个服务稳定的,花费低的虚拟主机而已。云存储服务需要与业务打包捆绑销售,比如Dropbox,腾讯开放平台。

3, 线上线下融合还比较难,几年之内的方式还是线下计算好的数据Push到线上系统,而不是线上线下完全共用。线下系统大局已定,Hadoop一统江湖,机会与挑战主要在线上系统,实时化。

4, 云存储的主要优势在于节省成本,来源于几个方面:a, 系统优化,普遍有2~3倍性能提升,对于某些特殊应用或一些特殊压缩算法,单节点优化可以有数量级的性能提升;b, 机器Buffer。为了防止异常,线上系统一般需要一半以上的机器Buffer,大量线上系统利用率<20%,通过提高存储服务能力,能够节省2~3倍成本;c, 硬件量产带来的低采购成本。总而言之,云存储带来的成本节省在5倍以上。

5, 云存储系统有两个目标:一个是高可扩展性,终极目标是线性扩展,完全自动化,宕机恢复时间极短;一个是强功能,终极目标是强一致性,关系型数据库SQL功能集。可扩展性与功能需要取舍,但支持绝大部分SQL功能集的线性可扩展云存储系统将出现并成为主流。

感悟

1, 权利与责任对等。有什么样的权利,就应该有什么样的责任。主管有带人的权利,就有考虑其他人如何成长的责任;业务方说话声音大,是因为要背业务KPI。技术驱动业务是不现实的,除非技术背负业务KPI。

2, 保持乐观。这个世界有太多的不公平,尤其是在天朝。然而,社会总是不断朝着公平这个方向发展的,在互联网这个小圈子里面还是相对公平的。做好自己能够控制的,忽略自己不能控制的,多想想你有什么,你想要什么,最重要的是,你还需要并且能够做什么?

3, 技术与业务。技术只有与业务相结合才能产生价值,从无到有做好一件事情,最重要的一点就是是否精通业务;然而对于技术产品,比如存储产品,这件事情能够做到多大,技术的深度会起重要甚至决定性作用。业务是从0做到10的能力,技术是从10做到1000的能力。

4, 坚持与执行力。一个人最重要的能力是把规划好的事情用最有效的方式执行下去,拿到结果。规划是从多条路里面选一条路,既然是选择,而且这个选择过程可能很痛苦,那么这些让人纠结的选择之间投入产出比一定是相当的。选择了就坚持下去,只要执行得好,往往都能拿到好的结果,即使选择不是最优的。

生活

1, 英孚没有达到8级的目标,只到6级就没有坚持下来了,没有明确目的的学习往往很容易被其它事情打断;

2, 2011年没有学车,2012年必须学完;

3, 上下班时间太长,健身计划有些中断,2012年目标比较现实,每周去健身房跑步一次就可以了。