具体来说,
一、2013年主要完成了如下工作:
(1)完成pp等合作方应用和A端代码完美融合方案的推进及实施(感谢xx支持);
(2)完成pt全自动发布系统的上线及pg组线上发布系统的改进(确实很提高工作效率);
(3)规划并构建了线上线下堪称完美的代理池解决方案(ADSL及光纤固定IP),并大规模应用在pg、pt及xn的业务中;
(4)重新构建线上日志分析平台,并在现有基础上进行同步优化,在可控的条件下,方便开发童鞋查看线上业务运行情况;
(5)丰富现有cacti/nagios监控系统,增加RAID健康监控、故障自恢复、触发脚本的功能(FPM故障自重启、xx出口流量超标自动抓包);
(6)完成内网虚机资源的有效整合,用2台高配服务器代替了原来12台老旧服务器,有效减轻机房电力及散热的压力;
(7)随着公司业务量的增长Hadoop集群进行扩容升级;
(8)对现有系统做了一些优化工作(平台xx/xx库的自动优化,Sphinx由32位升至64位,xx机房内网流量绕路问题,联通google DNS稳定性对平台影响);
(9)根据公司业务需求上线了一批服务器;
(10)线上数据库单点登录系统SSO的实施,方便非DBA操作数据库;
(11)SVN账号管理方式的升级(passwd文件整合及用户修改密码功能);
(12)顺利完成了临时性及开发、测试童鞋的各种运维需求;
(13)日常运维管理工作。
二、2013年遇到的几个比较重大的突发问题及解决方案:
(1)PHP-FPM资源耗尽?
运维这边主要做了:增加对FPM的监控、FPM故障自重启、FPM按应用分pool;
开发那边也做了些工作,最近几个月没有出现异常。
(2)xx机房受到大流量DDOS攻击?
参见邮件:《关于2013-4-13公司服务器收到突发大流量攻击分析报告及解决方案 》。
(3)服务器硬件故障(pg65主板、pt18及主库磁盘、Hadoop磁盘、旧机器主板风扇故障)?
在不影响业务及影响最小的情况下对发现的故障硬件及时更换。
(4)Hadoop集群数据丢失?
参见邮件:《Hadoop 集群事故预防方案 》。
(5)公司自建机房空调不给力导致Hadoop集群及虚机不时停机?
推动实施虚机资源整合计划,减少开机数量、协调人力部门及时更换空调、增加排风扇。
三、2013年也较深刻的思考过、尝试过下面几个问题的解决,但还没成体系:
(1)DNS的管理方式的改进(代理机别名和泛域名站群)及公司线上线下DNS体系的设计;
(2)存储分层的思想及冷存储;
(3)sql慢查询分析推送系统(可扩展到应用的error log);
(4)开源堡垒机功能扩展(权限控制、录屏审计、sudo命令审计、在线会话查看、防止掉线断线);
(5)跨机房网络互连VPN方案(Access/Lan to Lan);
(6)自建可扩展AD代理池(不采用飞鱼星的多WAN口路由器,类似Pfsense但功能不同);
(7)关于做事情的5W+1H理论(what->why->when->where->who->how)
四、2013年个人方面也通过学习拿到了红帽RHCE及思科CCNP认证。
五、展望2014,目前的工作计划:
(1)第一要务确保线上线下稳定运行;
(2)第二要务应对突发状况;
(3)有选择的完成2013年深刻的思考过的那几个问题;
(4)丰富运维管理系统,让运维工作更加流程化、规范化。