2013年终工作总结及工作计划

时间:2023-02-12 09:57:52

具体来说,

       一、2013年主要完成了如下工作:

1)完成pp等合作方应用和A端代码完美融合方案的推进及实施(感谢xx支持);

2)完成pt全自动发布系统的上线及pg组线上发布系统的改进(确实很提高工作效率);

3)规划并构建了线上线下堪称完美的代理池解决方案(ADSL及光纤固定IP),并大规模应用在pg、pt及xn的业务中;

4)重新构建线上日志分析平台,并在现有基础上进行同步优化,在可控的条件下,方便开发童鞋查看线上业务运行情况;

5)丰富现有cacti/nagios监控系统,增加RAID健康监控、故障自恢复、触发脚本的功能(FPM故障自重启、xx出口流量超标自动抓包);

6)完成内网虚机资源的有效整合,用2台高配服务器代替了原来12台老旧服务器,有效减轻机房电力及散热的压力;

7)随着公司业务量的增长Hadoop集群进行扩容升级;

8)对现有系统做了一些优化工作(平台xx/xx库的自动优化,Sphinx32位升至64位,xx机房内网流量绕路问题,联通google DNS稳定性对平台影响);

9)根据公司业务需求上线了一批服务器;

10)线上数据库单点登录系统SSO的实施,方便非DBA操作数据库;

11SVN账号管理方式的升级(passwd文件整合及用户修改密码功能);

12)顺利完成了临时性及开发、测试童鞋的各种运维需求;

13)日常运维管理工作。

 

二、2013年遇到的几个比较重大的突发问题及解决方案:

1PHP-FPM资源耗尽?

         运维这边主要做了:增加对FPM的监控、FPM故障自重启、FPM按应用分pool

         开发那边也做了些工作,最近几个月没有出现异常。

2)xx机房受到大流量DDOS攻击?

        参见邮件:《关于2013-4-13公司服务器收到突发大流量攻击分析报告及解决方案 》。

3)服务器硬件故障(pg65主板、pt18及主库磁盘、Hadoop磁盘、旧机器主板风扇故障)?

         在不影响业务及影响最小的情况下对发现的故障硬件及时更换。

4Hadoop集群数据丢失?

       参见邮件:《Hadoop 集群事故预防方案 》。

5)公司自建机房空调不给力导致Hadoop集群及虚机不时停机?

        推动实施虚机资源整合计划,减少开机数量、协调人力部门及时更换空调、增加排风扇。

 

三、2013年也较深刻的思考过、尝试过下面几个问题的解决,但还没成体系:

1DNS的管理方式的改进(代理机别名和泛域名站群)及公司线上线下DNS体系的设计;

2)存储分层的思想及冷存储;

3sql慢查询分析推送系统(可扩展到应用的error log)

4)开源堡垒机功能扩展(权限控制、录屏审计、sudo命令审计、在线会话查看、防止掉线断线);

5)跨机房网络互连VPN方案(Access/Lan to Lan);

6)自建可扩展AD代理池(不采用飞鱼星的多WAN口路由器,类似Pfsense但功能不同);

7)关于做事情的5W+1H理论(what->why->when->where->who->how

 

四、2013年个人方面也通过学习拿到了红帽RHCE及思科CCNP认证。

 

五、展望2014,目前的工作计划:

1)第一要务确保线上线下稳定运行;

2)第二要务应对突发状况;

3)有选择的完成2013年深刻的思考过的那几个问题;

4)丰富运维管理系统,让运维工作更加流程化、规范化。