山东枣庄联通-固定核心网事故案例
【事故经过】:
  山东枣庄联通UMG8900扩容项目,按照现场准备情况及和用户沟通协商,定于521日凌晨、522日凌晨进行扩容割接。我公司现场工程师在510日制作了扩容方案(方案中包含了相关原有数据的采集及扩容后数据的配置),然后将方案发送华为相关人员(主送办事处区域维护责任人,抄送项目经理、区域经理服务经理、区域客户经理)及我们公司相关人员(现场负责人、产品经理、办事处主任)进行审核;同时,电话知会办事处区域维护人员;由于该方案办事处没有能力审核,故此由办事处区域维护人员直接将方案转发给了华为研发人员进行审核;我公司在517日收到邮件回复,确认方案没有问题,可以实施。
520日核心网工程师宋艳彬准备具体实施该项目,扩容前给公司内部大产品线经理刘耀刚、山东办事处主任高军杰、产品线经理魏军刚、枣庄区域经理张斌和华为办事处区域维护责任人刘子宇发送了扩容重大操作短信,而没有给华为的区域服务经理、产品经理、高级督导、客户经理和工程经理通知重大操作,本次扩容成功后还是只给公司内部人员和华为的办事处区域维护责任人刘子宇发送了短信,而且在本次短信中捎带的说了一句本周五
晚上要进行另一个局点的扩容,由于本次扩容成功,问题暂时没有暴露出来。
522日(周五)扩容另一个局点UMG8900前没有给任何人通知,只在前一日的日报中体现了割接时间。23日凌晨扩容后,因原有现网数据配置存在问题,导致设备掉电重启后,27枣庄人事网号链路全部中断;在业务倒回后,故障不能消除,经研发协助定位处理,在523日早615分,故障才完全恢复,导致扩容失败。在故障期间,因始终有一个平面的业务正常,故没有中断现网业务,但本次扩容因倒回而失败
在出现问题后公司跟区域服务经理、华为高级督导、工程经理沟通此事,商议如何解决此问题以及一些安抚工作,但是由于操作前宋艳彬没有给华为主管人员,也没有邮件通知,只是和办事处区域维护责任人进行电话沟通,导致了工作开展的非常的被动。办事处认为我们没有遵守高危操作规范,割接属于违规操作。
【事故分析】:
本次事故经研发定位分析,属于原有现网数据不规范导致,只要设备系统复位就有可能造成业务中断。但在割接的准备期间,现场工程师只是对割接方案重视,对华为和公司多次
强调的重大操作的短信通知规范没有重视。在割接前和割接后没有短信和邮件通知到华为和公司的相关主管,将一次我们没有任何责任的事故,定位为违规操作,造成公司在事故的后续处理的被动。
【事故总结】:
    1、现场负责人:在割接前没有将短信通知到流程规范中要求的所有人,并且没有发送邮件通知;
2、产品经理:监控不严,在第一次割接时就已经出现的问题,没有及时要求现场负责人改正,重视不够,为第二次割接出现问题埋下了伏笔;
3、办事处主任:对问题重视程度不够,不敏感;对工程实施过程中的流程规范执行监控力度不够,造成隐患;
本次事故充分暴露出我们一部分工程师在高危操作流程规范上的麻痹大意。高危操作不能完全遵守流程规范,不能从根本上重视流程规范的作用。公司多次组织学习,多次强调规范是我们在工程实施过程中的第一准则,也是我们自身利益的保护伞,但还是有人无视流
程规范,最终自饮酿下的苦果,损害了自身利益,更损害了公司的利益。