转载请注明出处:http://blog.csdn.net/zbf8441372
把一些好的,有用的博文搜集在这里,陆续更新,主题大都是涉及到分布式系统,文件和存储之类,还有云计算,包括一些强大的,热门的open-source,包括NoSQL生态系统,Hadoop家族,lucene全文搜索工具,一些Apache项目等等。另外一些比较好的站点和博客地址,可以拓展阅读。
20. REST相关
深入浅出REST 对REST的比较通俗,全面的基本介绍
19. 分布式系统工程实践
一位淘宝工程师在2010年写的一篇关于分布式的综合论述的文档,对于对分布式感兴趣又不入门的我来说,好难消化。 分布式系统工程实践(open-open地址)
18. MogileFS
傲游用MogialFS存储海量文件,据说几百万的文件很轻松就可以处理。存在的问题是文档太少,并且有人号称目前的实现不够稳定。另外根据一些文档,MogileFS无法scale到很高的数量级,因为metadata db是瓶颈。
参考:
- http://danga.com/mogilefs/ :官方网站
- http://lxy2330.iteye.com/blog/1225419 :一个分布式文件系统的综述,认为MogileFS文档少并且不够稳定。
- http://hi.baidu.com/noirwinter/blog/item/6d13da1b30a793c5ad6e7514.html :一个MogileFS的实例介绍,号称可以处理千万级别文件。
- http://shen2.cn/tag/mogilefs/ :另一个分布式文件系统的的综述,推荐了MooseFS
- http://www.quora.com/OpenStack-vs-MogileFS:比较了Swift和MogileFS,认为MogileFS无法scale。
17. MongoDB 图片存储相关文章
- http://www.frostsky.com/2011/10/mysql-to-mongodb/ :视觉中国网站的实例,他们用MongoDB实现了产品级别的图片存储。
- http://groups.google.com/group/mongodb-user/browse_thread/thread/960b49e903bc80f0?pli=1 :一个讨论,有回复说1TB级别的图片数据存在GridFS没有任何问题,并且有人提到他们用MongoDB存储了百万张图片,延时还在50ms以内。
- http://blog.nosqlfan.com/html/1035.html :一个开源方案
- http://hi.baidu.com/noirwinter/blog/item/19fa98520617e01e0cf3e337.html :作者在TB级别的数据应用成功了MongoDB。
- http://blog.yunchat.net/2034.html :一个简单的demo
- http://www.mongodb.org/display/DOCS/Production+Deployments: MongoDB官方网站给出的用户列表,有一些用户用到它存储图片,不过规模貌似都不太大。
16. 面向文档的数据库 CouchDB
15. 案例分析:基于消息的分布式架构
可以关注下文章作者的博客,这只是他基于消息的分布式架构系列博文中的一篇。另外,逛他的博客我保证会受益匪浅!
14. 架构腐化之谜
好久没有逛InfoQ啦,来两片架构的文章滋润下。
13. 云计算多租户最佳实践
关于云计算中一个重要的概念:多租户。有简单的例子。
12. 集成Lucene和HBase
有关怎么结合NoSQL做lucene的搜索的思路,也算个启迪吧。
只有总结好了应用场景,才能更好把握。总结得挺不错的。
10. 一致性hash算法
作为分布式的一个最最重要的基础之一。本文解释的很清楚明了。
小白表示看完就去改代码了= =
简单扫个忙,关于BigTable,列簇式存储,图结构存储,横向扩展强一致性,最终一致性等。顺便再推荐NoSQLFan网站。还看到taobao团队博客里的一篇关于Cassandra性能测试的博文也同时发在了NoSQLFan上,可见那是一片很好的土地。测试结果Cassandra的写性能非常优越,读性能一般。
这是一本蛮不错的mini ebook。总结了搜索引擎的一些基础知识(转倒排的几种方法),主要算法(PageRank,HITS,SALSA,Hilltop), 好好看的话收获还是蛮大的。
6. paxos 实现
zookeeper是基于paxos实现的。paxos算法是一种类似锁的机制,本质上zookeeper中用它实现的是数据在分布式环境下的一致性。paxos算法的paper感兴趣的话可以阅读下。另外,这是淘宝核心系统团队博客,无论是list,还是回复,还是相关链接的博客,都很不错。
关于Twitter的Storm,一个非常火的实时计算系统。你可以看到很多开源的东西。在回复里有个链接,有更多更深的内容。值得一读。
4. HBase入门篇(集锦)
该博主的一系列HBase实践经验,给我的感觉非常好,可以跟读下。就算没有用过HBase,也能很好体会到HBase这个东西,也许可以启迪你考虑将它运用到自己的项目中去。
3. Lucandra / Solandra: A Cassandra-based Lucene backend
lucene与Cassandra的结合。包括之后和Apache solr结合。提供了我lucene与NoSQL结合的实现思路,如HBase。用NoSQL的特性,也许可以弥补无法索引进lucene的数据的读取方式。存进MySQL去读,实践证明可慢了。
2. 如何打败"CAP"定理
数据库中的Consistency, Availability, Partition-Tolerance。很多设计都是舍一取二,所谓的三条都满足也是一定条件下的伪满足,一定是有取舍的。
1. AWS平台与EC2介绍
关于Amazon平台的产品,关于它的"弹性"。