优质博文list(分布式文件系统/存储/搜索)

时间:2022-03-16 04:46:42

 转载请注明出处:http://blog.csdn.net/zbf8441372

把一些好的,有用的博文搜集在这里,陆续更新,主题大都是涉及到分布式系统,文件和存储之类,还有云计算,包括一些强大的,热门的open-source,包括NoSQL生态系统,Hadoop家族,lucene全文搜索工具,一些Apache项目等等。另外一些比较好的站点和博客地址,可以拓展阅读。

20. REST相关

深入浅出REST 对REST的比较通俗,全面的基本介绍

解答有关REST的十点疑惑

19. 分布式系统工程实践

一位淘宝工程师在2010年写的一篇关于分布式的综合论述的文档,对于对分布式感兴趣又不入门的我来说,好难消化。 分布式系统工程实践(open-open地址)

18. MogileFS

傲游用MogialFS存储海量文件,据说几百万的文件很轻松就可以处理。存在的问题是文档太少,并且有人号称目前的实现不够稳定。另外根据一些文档,MogileFS无法scale到很高的数量级,因为metadata db是瓶颈。

参考:

17. MongoDB 图片存储相关文章

16. 面向文档的数据库 CouchDB


15. 案例分析:基于消息的分布式架构

可以关注下文章作者的博客,这只是他基于消息的分布式架构系列博文中的一篇。另外,逛他的博客我保证会受益匪浅!


14. 架构腐化之谜

好久没有逛InfoQ啦,来两片架构的文章滋润下。


13. 云计算多租户最佳实践

关于云计算中一个重要的概念:多租户。有简单的例子。

12. 集成Lucene和HBase

有关怎么结合NoSQL做lucene的搜索的思路,也算个启迪吧。


11. ZooKeeper典型使用场景一览

只有总结好了应用场景,才能更好把握。总结得挺不错的。


10. 一致性hash算法

作为分布式的一个最最重要的基础之一。本文解释的很清楚明了。


9. Java编程中“为了性能”尽量要做到的一些地方

小白表示看完就去改代码了= =


8. [译] NoSQL生态系统

简单扫个忙,关于BigTable,列簇式存储,图结构存储,横向扩展强一致性,最终一致性等。顺便再推荐NoSQLFan网站。还看到taobao团队博客里的一篇关于Cassandra性能测试的博文也同时发在了NoSQLFan上,可见那是一片很好的土地。测试结果Cassandra的写性能非常优越,读性能一般。


7. 这就是搜索引擎:核心技术详解

这是一本蛮不错的mini ebook。总结了搜索引擎的一些基础知识(转倒排的几种方法),主要算法(PageRank,HITS,SALSA,Hilltop), 好好看的话收获还是蛮大的。


6. paxos 实现

zookeeper是基于paxos实现的。paxos算法是一种类似锁的机制,本质上zookeeper中用它实现的是数据在分布式环境下的一致性。paxos算法的paper感兴趣的话可以阅读下。另外,这是淘宝核心系统团队博客,无论是list,还是回复,还是相关链接的博客,都很不错。


5. Twitter Storm:开源实时Hadoop

关于Twitter的Storm,一个非常火的实时计算系统。你可以看到很多开源的东西。在回复里有个链接,有更多更深的内容。值得一读。


4. HBase入门篇(集锦)

该博主的一系列HBase实践经验,给我的感觉非常好,可以跟读下。就算没有用过HBase,也能很好体会到HBase这个东西,也许可以启迪你考虑将它运用到自己的项目中去。


3. Lucandra / Solandra: A Cassandra-based Lucene backend

lucene与Cassandra的结合。包括之后和Apache solr结合。提供了我lucene与NoSQL结合的实现思路,如HBase。用NoSQL的特性,也许可以弥补无法索引进lucene的数据的读取方式。存进MySQL去读,实践证明可慢了。


2. 如何打败"CAP"定理

数据库中的Consistency, Availability, Partition-Tolerance。很多设计都是舍一取二,所谓的三条都满足也是一定条件下的伪满足,一定是有取舍的。


1. AWS平台与EC2介绍

关于Amazon平台的产品,关于它的"弹性"。