上月初,包括我在内的6位百度同学受邀参加了在新加坡举办的SREcon18 Asia/Australia,SREcon是由计算机科学领域的知名机构USENIX主办的运维*盛会,最初每年在美国加州圣克拉拉举办,近年因为亚洲地区的运维技术影响力与日俱增,从去年开始单独开设了亚洲会场,每年5-6月在新加坡举办。
百度已经先后六次在SREcon上分享运维实践经验,并且随着百度在国际运维领域的影响力与日俱增,SREcon组委会中已经多次出现了百度人的身影,本次会议来自百度云的曲显平受邀出任了组委会评审。
AIOps成为全球运维趋势
在三天的议程中,我们一行人不断地穿梭在各个报告厅里,与国内外同行一起交流,探讨运维领域的方向和思路。
本次大会共有46个主题演讲,来自Google、Facebook、Amazon、Microsoft等公司的运维专家做分享,其中有7个演讲来自中国的公司,而百度就占据了5席,彰显了我们在行业中的绝对技术实力。百度的每场演讲结束,都有大量的业内同行交流咨询,同行们对于百度的智能运维工作、云基础设施发展情况等都十分感兴趣,我们在运维领域的工作得到了广泛的认可,多位来自Facebook、Google的同行直呼百度讲的内容干货满满。
百度参会同学与参会专家在百度展区交流
这次会议上明显感受到AIOps已经被越来越多的公司所采纳,并已有诸多实践。很多公司都介绍了他们在AIOps方面的探索,比如,来自Google的专家Matt Brown带来了主题为《Know Thy Enemy: How toPrioritize and Communicate Risks》的演讲,从概率和期望角度教我们如何确定运维工作优先级;同时,另外一位Google的专家Julius Plenz带来了主题为《Randomized Load Balancing, Caching, and Big-O Math》的演讲,介绍了Google的负载预测算法等等。
五大主题演讲分享百度的运维故事
参会的百度同学合影
(从左至右分别为:张柳青、姚睿尧、曹轩、陈宇、薛萍萍、王博)
Talk
1
1使用多维度数据分析高效定位服务故障
曹轩在会议上进行精彩演讲
百度搜索运维资深工程师曹轩做了主题为《EfficientTrouble Shooting of Service Failures with Multi-Tag Data Analysis》的分享。SRE最重要的工作之一是解决导致KPI恶化的问题,如PV、广告收入、点击率下降等。许多问题只影响一部分流量,如果Oncall工程师了解受影响部分的特征,如流量源区域、浏览器类型或介入网络标准等,则可以加速诊断。我们应用机器学习技术来推荐与失败最相关的Tag。该方法采用无监督异常检测和基于熵的降维技术,可以自动推荐关键数据特征进行故障排除。所提出的方法已经由数百个真实案例验证,与传统方法相比,显著加快了故障排除过程。
Talk
2
在百度如何让发布更安全
薛萍萍和陈宇在会议上进行精彩演讲
百度搜索运维资深工程师薛萍萍和百度云资深数据架构师陈宇做了主题为《How toMake Releases Safer in Baidu》的演讲。在百度,变更是导致服务故障的Top Killer之一,我们构建了完善的分级发布机制,结合MachineLearning让上线检查更智能,减少发布引入的故障,同时提高百度发布效率,加速业务产品迭代。
Talk
3
一个关于十亿量级时间序列的故事
姚睿尧在会议上进行精彩演讲
百度云资深研发工程师姚睿尧做了主题为《ATale of One Billion Time Series》的演讲。百度Noah监控支撑了全百度的业务和系统监控,它对业务的可靠性至关重要。迄今为止,Noah监控所采集的监控指标规模已经增涨到了十亿量级,我们拥有一个可靠且高效的时间序列数据库(TSDB)来存储这些监控指标,应用高效的时序数据压缩算法,极大降低了资源的消耗,不仅能够支持实时的海量数据写入,还可以处理各种各样的实时查询请求。
Talk
4
互联网连通性故障检测与自动流量调度
张柳青在会议上进行精彩演讲
本次大会中,百度云资深研发工程师张柳青做了主题为《Automatic Traffic Scheduling for Internet Connectivity Failures》的演讲。当人们谈到高可用保障和用户体验保障时,通常重点考虑服务自身的稳定性问题,却往往会忽视网络(互联网)的连通性异常所造成的影响。通过实际监测发现,网络(互联网)连通性故障出现的非常频繁,这类故障的频繁发生,会极大地影响用户体验。基于这个背景,我们构建了百度网络连通性监控系统和自动流量调度系统,以保障互联网连通性故障期间的服务高可用。
Talk
5
基于线性回归的PV监控
王博在会议上进行精彩演讲
我在本次大会分享的主题是《PVMonitoring Based on Linear Regression》,这个主题(线性回归)看似简单,实则有很多困难。本次演讲,我重点为大家介绍了百度在流量监控场景中遇到的实际问题,并介绍百度流量智能检测算法,它可以准确地预测当前流量的基准值,使用上下文无关的阈值进行异常判断,简化了阈值设置过程,并展示了在百度实际使用过程中的良好效果。百度Noah监控系统中的智能异常检测能力目前已经覆盖了多种监控场景,如流量、响应时间等,这些监控可以发现多种类型故障,如外网故障、系统故障等。
百度智能运维已经多次在国际舞台上分享技术、引领方向,这彰显了百度在运维领域的绝对实力和深厚积淀。AIOps(Artificial Intelligence for ITOperations)时代的号角已经吹响,百度智能运维也将持续探索,将百度AI技术应用并落地于实际运维场景,同时,我们也已经将成熟的技术完成产品化的转变,对外输出,为各行各业的运维带来革命性的影响,解决企业因技术不对等造成的商业发展不平等问题,提升行业运维实力,助力业务发展。
关于作者
王博 百度云资深研发工程师
负责百度云异常检测系统、报警收敛、故障诊断等相关工作,目前是异常检测系统的技术负责人。
往期
回顾
﹀
﹀
﹀
智能运维 | 百度自动化运维是怎么做的(上)——概念以及标准从何而来?
智能运维 | 百度自动化运维是怎么做的(下)——运维编年史
智能运维 | 为何说自动化运维三大要素是标准化、工程化和智能化?
智能运维 | 百度网络监控实战:NetRadar横空出世(上)
智能运维 | 百度网络监控实战:NetRadar横空出世(下)
智能运维 | 框架在手,AI我有
智能运维 | 干货分享,百度如何实现大规模分布式监控系统的高可用
智能运维 | 百亿级外网访问质量保障:百度猎鹰外网监控(上)
智能运维 | 百亿级外网访问质量保障:百度猎鹰外网监控(下)
智能运维 | 百度海量日志处理——任务调度实践与优化
智能运维 | 有了故障自愈机器人,运维小哥终于可以安心睡了
智能运维 | 使用故障自愈机器人?运维小哥先解决这些问题