文件名称:中提到的线上最终一致性系-htrc110 用户手册
文件大小:1.33MB
文件格式:PDF
更新时间:2024-06-30 06:35:48
分布式
8.1 电子商务类 阿里巴巴引领着电子商务的方向。以淘宝为例,淘宝面临的存储相关问题包括卖家商品, 交易信息,用户信息,用户评价,用户收藏,购物车,图片等等,并且淘宝累积存储了不同 业务系统收集的海量业务数据,比如访问点击、交易过程、商品类目属性以及呼叫中心客服 内容等。 淘宝大多数存储系统的特点是:数据量大,记录条数特别多,单点记录不大,读写比例 高,且可能要求事务。由于访问量特别大,以前采用 Oracle + 小型机的解决方案,对于不 需要事务的需求,可以通过 Mysql sharding 的方式实现。我们正在做的 Oceanbase 系统巧妙 地利用读写比例大且单条记录一般比较小的特点,将动态更新的数据放在单机内存中并通过 强同步保证可靠性及可用性,动态数据定期与静态数据合并。 淘宝的小文件存储系统 TFS 已经开源了,目前主要是用来存储海量图片文件。淘宝 TFS 处理百亿级别的图片存储,数据量 PB 级别,这个问题属于 5.4 中提到的线上最终一致性系 统的范畴,不过通用系统的解决方案过于复杂,性价比不高。于是,淘宝天才的工程师们利 用图片应用的特点设计了通用的小文件存储系统 TFS(TFS 开源)。图片存储系统的特点主要有 两个: 1, 用户一次性准备好文件所有数据并提交到文件系统,每个文件打开后一次性写入所 有数据并关闭; 2, 用户不关心文件的名字,用户不会指定某个文件进行写操作,可以等到文件写成功 后生成文件名并由客户端保存。 TFS 利用这两个特点大大地简化了文件系统写流程和元数据管理服务器的设计,而这也 正是海量文件系统最为复杂之处。 淘宝是一个开放、共享的数据公司,还通过数据仓库提供各种数据给客户。目前使用了 Oracle RAC 集群提供服务,当然,也通过 Hadoop + HIVE 进行一些线下的预处理。 淘宝的主搜索其实是一个实时搜索,卖家更新的商品信息需要秒级别反映到用户的搜索 结果中。淘宝的主搜索是很灵活的,可以根据商品类别,卖家名称,商品属性等进行搜索, 因此,主搜索的存储系统需要建立不同维度的索引信息,主搜索使用内部的 iSearch 产品, 机器被分成 56 组,每组 14 台,组内机器存储相同的数据。商品更新发生在 Oracle 商品库 中,并以异步的方式同步到主搜索索引系统。 8.2 搜索类 搜索类公司的核心竞争力,或者说互联网公司的核心竞争力都可以认为就是数据以及对 数据的处理能力,比如商业价值挖掘,用户意图挖掘等。搜索类最成功的当然就是 Google, 它能取得现在的成功很大程度上得益于底层的 GFS/MapReduce/Bigtable 等带来的大规模数 据处理能力。