【noqsl】beansdb的分布式实现～简单粗暴有效～

版本: beansdb 0.5.3

下载地点：
http://code.google.com/p/beansdb/

beansdb是豆瓣用来存储不变小object的支持中等数据规模的nosql的持久型数据库～跟memcache相比，主要特点如下

1. 数据是持久化的，value 完全在硬盘上操作，内存中只存放key的hash索引

2. 在持久化的基础上，为了提高可靠性，一份数据可以设置存放在多个地方

3. 把分布式坐在了客户端的api里，beansdb本身是单机的

4. 存储使用bitcast的方式～～跟b+树索引（tokyocabinet）和lsm（leveldb）又不一样的～挺巧妙～

5. beansdb没有实现expired功能～～～

6. 网络连接的管理直接搬了redis的实现~~~

下面主要介绍配置文件的工作方式，自带的example中的配置是这样的

BEANSDBCFG = {
"localhost:7901": range(16),
"localhost:7902": range(16),
"localhost:7903": range(16),
}

翻译过来就是

localhost:7901:1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

localhost:7902:1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

localhost:7903:1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

客户端拿到这个配置，会做一下“倒排”

0：localhost:7901；localhost:7902；localhost:7903

1：localhost:7901；localhost:7902；localhost:7903

2：localhost:7901；localhost:7902；localhost:7903

。。。

15：localhost:7901；localhost:7902；localhost:7903

当客户端对key进行操作【set，get，delete】时，会先对key进行hash/16 ，然后你懂的，这里读和写有个比较trick的地方

读的时候

读到了会对其他同一个桶内的server做一个set，利于数据恢复.

    def get(self, key):
        ss = self._get_servers(key)
for i,s in enumerate(ss):
            r = s.get(key)
if r is not None:
# self heal
for k in range(i):
                    ss[k].set(key, r)
return r

写的时候

会对统一个桶内的所有的server做写操作，由此达到冗余存储的目的～

总结：

1. 简单，够美

2. 基于磁盘，没有提供可选的expire功能，可能豆瓣的需求是用来存储不会删除，不经常改变的大量小object吧，按照作者的说法，是针对豆瓣海量音乐，图片的～～～

3. 配置文件的映射比较复杂～～

4. qps不会很高，因为依赖与单机的相应速度，几百qps的样子吧，不会太高

总之受益匪浅～～～好了就到这

谢谢

秒客网

【noqsl】beansdb的分布式实现～简单粗暴有效～

相关文章