5月28日11时起,携程官网及APP无法使用,直至当天23时29分,才全面恢复正常。经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。
在携程宕机之前,5月份以来,已有网易、支付宝钱包等网络服务出现短暂的无法正常使用的现象。其中,5月11日晚上8时许,网易突然出现大面积服务瘫痪问题,网易新闻、云音乐、易信、有道云笔记等多款移动应用均无法正常刷新,网易名下的游戏也全线瘫痪,用户长时间无法刷新和登录。但第二天凌晨2点就已经恢复。5月27日17时左右,支付宝钱包出现故障。支付宝1小时后就找到故障原因,是杭州萧山一处光缆被挖断。
而携程此次宕机,从发现到全面修复超过了12个小时。互联网企业宕机,修复时间如此长的情况,比较少见。
为什么恢复时间那么长?携程从技术角度对新京报记者解释道,携程后台是一个由SOA(面向服务)架构组成的庞大服务器集群,一个页面背后由上千个应用子系统以及上千个Web Service组成,每个应用子系统和每个Web Service之间存在着相互调用的依赖关系。事件发生后,携程除需要恢复生产服务器上的执行代码,还需要确保应用子系统和Web Service的功能正常,以及两者间的调用关系正常执行。这种验证性的操作需要反复地、持续性地调试。
为杜绝此类事件的再次发生,携程表示,已经在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作。携程再次保证,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损。
除了消费者,携程自身受到的影响也非常惨重。以携程今年第一季度财报的数据计算,净营收23亿元,28日携程相当于每小时损失106.5万元的生意。以12小时计算,携程大约少了1278万元的业务收入。
■ 分析
互联网脆弱 企业该做什么?
不到一个月的时间里,主流互联网企业中,就有网易、支付宝、携程的服务器或系统先后“倒下”。对于互联网赖以生存的网络、设备、技术可能变“脆弱”的情况,企业应该怎么做?
安天首席架构师肖新光告诉记者,注意备份、备灾非常重要。通常来说,大的互联网企业都会有比较成熟的备份机制和应急预案等,通常可以做到小故障不影响用户体验(甚至让用户感知不到),局部故障可以快速恢复等等。
对于数据,热备份和冷备份都已经是较为成熟的技术。通俗而言,热备份是至少两台设备同时进行相同的数据操作,如果一个设备出现故障,可以快速切换到备用设备。冷备份是指,每隔一段时间进行一次数据复制,来确保一旦出现故障,至少可以恢复到接近当前的某个时刻,但恢复需要更多时间。
技术与方法等是相对比较成熟的,但同时也要看企业对整个系统的设计是否得当、投入是否足够、管理是否有效。目前企业的相关投入更多对应的是一些自然事故,如服务器损坏、线路中断、包括机房遭遇水灾、火灾等,但对于恶意攻击、内部犯罪等防范的能力和防范投入往往还有一定欠缺。
对于重特大事故和事件(如长期策划的蓄意入侵攻击,特别是内部的攻击),从最开始的一片混乱到有效处理,可能需要更长的时间。多数企业缺少对最坏状况的演练。同时,如果立足于防范极限情况,也需要付出更多的日常成本。
相关链接:
携程“宕机”近12小时否认数据丢失 消费者将索赔
携程4亿美元收购艺龙37.6%股权
携程“飞享金”被指变相赚取高额退票费
央视曝携程退票费达100% 除“两费”外分文不退
携程手机客户端退一张机票扣费80% 网站:行业惯例
三亚携程国际旅行社在海口成立分公司
·凡注明来源为“海口网”的所有文字、图片、音视频、美术设计等作品,版权均属海口网所有。未经本网书面授权,不得进行一切形式的下载、转载或建立镜像。
·凡注明为其它来源的信息,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
网络内容从业人员违法违规行为举报邮箱:jb66822333@126.com