2013年终工作总结及工作计划

具体来说，

一、2013年主要完成了如下工作：

（1）完成pp等合作方应用和A端代码完美融合方案的推进及实施（感谢xx支持）；

（2）完成pt全自动发布系统的上线及pg组线上发布系统的改进（确实很提高工作效率）；

（3）规划并构建了线上线下堪称完美的代理池解决方案（ADSL及光纤固定IP），并大规模应用在pg、pt及xn的业务中；

（4）重新构建线上日志分析平台，并在现有基础上进行同步优化，在可控的条件下，方便开发童鞋查看线上业务运行情况；

（5）丰富现有cacti/nagios监控系统，增加RAID健康监控、故障自恢复、触发脚本的功能（FPM故障自重启、xx出口流量超标自动抓包）；

（6）完成内网虚机资源的有效整合，用2台高配服务器代替了原来12台老旧服务器，有效减轻机房电力及散热的压力；

（7）随着公司业务量的增长Hadoop集群进行扩容升级；

（8）对现有系统做了一些优化工作（平台xx/xx库的自动优化，Sphinx由32位升至64位，xx机房内网流量绕路问题，联通google DNS稳定性对平台影响）；

（9）根据公司业务需求上线了一批服务器；

（10）线上数据库单点登录系统SSO的实施，方便非DBA操作数据库；

（11）SVN账号管理方式的升级（passwd文件整合及用户修改密码功能）；

（12）顺利完成了临时性及开发、测试童鞋的各种运维需求；

（13）日常运维管理工作。

二、2013年遇到的几个比较重大的突发问题及解决方案：

（1）PHP-FPM资源耗尽？

运维这边主要做了：增加对FPM的监控、FPM故障自重启、FPM按应用分pool；

开发那边也做了些工作，最近几个月没有出现异常。

（2）xx机房受到大流量DDOS攻击？

参见邮件：《关于2013-4-13公司服务器收到突发大流量攻击分析报告及解决方案》。

（3）服务器硬件故障（pg65主板、pt18及主库磁盘、Hadoop磁盘、旧机器主板风扇故障）？

在不影响业务及影响最小的情况下对发现的故障硬件及时更换。

（4）Hadoop集群数据丢失？

参见邮件：《Hadoop 集群事故预防方案》。

（5）公司自建机房空调不给力导致Hadoop集群及虚机不时停机？

推动实施虚机资源整合计划，减少开机数量、协调人力部门及时更换空调、增加排风扇。

三、2013年也较深刻的思考过、尝试过下面几个问题的解决，但还没成体系：

（1）DNS的管理方式的改进（代理机别名和泛域名站群）及公司线上线下DNS体系的设计；

（2）存储分层的思想及冷存储；

（3）sql慢查询分析推送系统(可扩展到应用的error log)；

（4）开源堡垒机功能扩展（权限控制、录屏审计、sudo命令审计、在线会话查看、防止掉线断线）；

（5）跨机房网络互连VPN方案（Access/Lan to Lan）；

（6）自建可扩展AD代理池（不采用飞鱼星的多WAN口路由器，类似Pfsense但功能不同）；

（7）关于做事情的5W+1H理论（what->why->when->where->who->how）

四、2013年个人方面也通过学习拿到了红帽RHCE及思科CCNP认证。

五、展望2014，目前的工作计划：

（1）第一要务确保线上线下稳定运行；

（2）第二要务应对突发状况；

（3）有选择的完成2013年深刻的思考过的那几个问题；

（4）丰富运维管理系统，让运维工作更加流程化、规范化。

秒客网