文件名称:Rackspace的日志处理
文件大小:45KB
文件格式:DOC
更新时间:2018-11-15 03:50:00
hadoop Postfix MapReduce Solr
要求/问题 通过系统传输Rackspace用户的邮件产生了相当大的“文件”路径信息,它们以各种格式的日志文件的形式存放,每天大约有150 GB。聚集这些数据对系统发展规划以及了解用户如何使用我们的系统是非常有帮助的,并且,这些记录对系统故障排查也有好处。 假如一封邮件发送失败或用户无法登陆系统,这时非常重要的事是让我们的客服能找到足够的问题相关信息开始调试。为了能够快速发现这些信息,我们不能把日志文件放在产生它们的机器上或以其原始格式存放。相反,我们使用Hadoop来做大量的日志处理工作,而其结果被Lucene索引之后用来支持客服的查询需求。 日志 数量级最大的两种日志格式是由Postfix邮件发送代理和Microsoft Exchange Server产生的。所有通过我们系统的邮件都要在某个地方使用Postfix邮件代理服务器,并且大部分消息都要穿越多个Postfix服务器。Exchange是必须独立的系统,但是其中有一类profix服务器充当一个附加保护层,它们使用SMTP协议在各个环境下的托管邮箱之间传递消息。 消息要穿越很多机器,但是每个服务器只知道邮件的目的地,然后发送邮件到下一个负责的服务器。因此,为了给消息建立完整的历史信息,我们的日志处理系统需要拥有系统的全局视图。Hadoop给予我们的最大帮助是:随着我们的系统发展壮大,系统日志量也随之增长。为了使我们的日志处理逻辑仍然可行,我们必须确保它能扩展。MapReduce就是一个可以处理这种数据增长的完美系统架构。 简史