演讲主题
我自己听了以下几场:
- 云时代下的运维
- 秒级时代下的全栈溯源
- google运维解密
- 海量日志搜索分析技术及行业应用案例
- 基于日志数据的运维和运营之道
- devops在又拍云的实践
- 魅族基础系统运维之道
- 基于devops的paas运维实践
针对我听的这几场演讲谈几点心得体会:
- 现场人很多, 大家对devops的热情很高啊,可能是这几年互联网+的热炒, 很多传统厂商也转型做互联网了吧
- 对于演讲内容, 首先承认是有干货的。 但是干货不够干。 有些演讲变成了产品推销会。
- 新的干货不多, 有不少演讲之前就在公众号文章就看过了
- 我听的这几场演讲,主题基本可以划分为5类: 监控, SRE, devops, paas, 云实践。 我画了思维导图, 分享出来让大家参考。 (url链接在文末)
干货总结
下面简要谈一下这5个主题相关的一些主要观点, 详细的内容见文末的参考资料:
- 应用上云是一种大趋势,不可抗拒
- 在云上也是有坑的, 比如说很多系统参数不透明,造成排障时间长的问题
- 在云上, 瓶颈还在,只是被隐藏了
- 混合云是一种趋势
- 云时代,运维人员的价值体现在混合云管理, 云平台的调优, 排障等等
- 个人观点 : 演讲的嘉宾是网易的工程师, 对于网易这种大型的互联网企业而言,他们的机器规模大, 场景复杂, 有深度调优的需求, 因此踩了很多上公有云的坑。 对于中小的互联网企业和创业公司,未必会遇到类似的问题。 总体而言, 上云的利大于弊。
- 全栈溯源和日志分析都是为了快速定位和解决故障而生的
- 机器学习和人工智能将会是日志分析技术的下一代引擎
- 日志分析,检索,监控应该打造成一个ops品牌服务提供出来
- 个人观点: 对互联网企业而言, 日志就是隐藏的宝藏, 而日志分析技术就是打开宝藏之门的钥匙。 在日志分析上,已经有比较成熟的技术方案, 开源的有: elkstack, 商业方案有splunk, 日志易, 阿里云LogSearch等。
- SRE的两个职责: 应急响应和日常运维
- 每个SRE要有50%的工程时间, 用于开发, 用于有价值的系统运维
- 每个事故要6个小时去处理, 这里其实强调的是, 事故后的深度分析追踪, 从故障中学习
- 要有计划的安排灾难演习, 这样能使系统更加健壮, 更能防范于未然
- 应用系统的设计应该充分考虑人可能会犯的错误
- 不需要处理的告警, 就不要告警
- 要开发能够自愈的系统
- 个人观点: 即使我们不是SRE,但是也要有SRE的心, 坚持以google的SRE的标准来要求自己。 时常检视自己是否一直在做重复无意义的运维工作, 是否可以自动化。做运维是管理和驾驭机器和系统, 而不是反过来被其奴役。
- 运维的八荣八耻
- 云原生应用的12要素原则
- 个人观点: 话题基本是围绕着12要素原则来讲的, 运维的八荣八耻可以理解为12要素原则的中文翻译。 总结起来就是设计一个可配置, 高可用, 自动化, 标准化, 可视化的运维系统。
PaaS
- 提出将运维能力平台化的观点
- 实现NoOps的目标, 即自助式运维
- 构建运维自动化平台需要考虑八个方面: 标准化, xaas化 ,持续交付, 高可用架构, 弹性扩展, noops, 收益和风险, 平台运营。
- 个人观点: 运维能力PaaS化是一种站在更高层面的ops视角。初级的自动化是构建一些自动化脚本和工具,但是这些工具还是需要运维工程师来执行, 当用户的需求量上去了, 运维工程师依然会占用大量的时间来处理这些需求。 如果能变成可控的自助式服务,将会大大简化运维工程师的运维工作, 同时提供更快的交付速度。 我自己总结了一个运维形式的演进过程是这样的: 人肉 -> 脚本 -> web工具应用 -> 供运维工程师使用的运维系统 -> 用户自助式的运维平台。
扩展阅读
- 基于 DevOps 理念的私有 PaaS 平台实践 http://www.tuicool.com/wx/bMriYbi
- 详解DevOps八荣八耻 http://jiasuhui.com/archives/106524
- 来自 Google 的 DevOps 理念及实践 http://www.tuicool.com/articles/7NFjumb
- 12要素原则 https://12factor.net/zh_cn/
- ops world 演讲思维导图 http://naotu.baidu.com/file/4641e828c679dc46f1b1ecaa917e33d8?token=45d171bd832baf43
[欢迎关注我的微信公众号hackstoic, 在移动端获得最新的文章推送]