2016 月 2 月 19 下午 3 点左右,即时通讯云 LeanCloud 因技术故障致所有服务中断半小时以上。以下是LeanCloud官方关于此次故障的说明:故障时间15:17 至 15:50(持续约 33 分钟) 影响范围除了单纯的静态网站托管服务未受影响之外,其他所有服务,包括结构化数据存储、文件存储、云引擎、聊天、短信、推送、统计等功能都暂时无法使用。
故障处理时间线15:17 :我们在部署新服务时无意触发了一项误操作,但并未意识到由此会导致上述服务停止。15:17 :我们在同一时间接到系统监控报警,经检查发现 LeanCloud 网站无法登录,API 服务日志也已中断,同时有部分用户也向我们反馈,确认了服务已不可用。15:19 :我们随即启动回滚操作,所有服务陆续开始重启。15:25 :API 等服务逐步启动,但是流量还没对外开放。15:30 :开放 API 流量, 数据存储服务以及依赖于它的云引擎服务开始逐步恢复。继而聊天、统计、推送服务也逐步恢复。15:50 :所有服务恢复正常。
后续改进措施- 贯彻执行故障通报流程 :由于本次故障事发突然,影响面广,我们一直专注在恢复服务上,却疏忽了与用户及时沟通问题和进展这一已有流程。我们深知在故障期间这一流程对用户来说至关重要,所以我们今后会切实执行这一流程,明确故障通报的负责人和替补人、通报时机、通报内容、通报渠道(如邮件或短信)等。
- 对部署服务进行权限和功能上的细分 :限制其操作的影响范围,杜绝一条指令导致所有服务停止运转的情况。
- 完善后台管理系统 :确保管理系统的所有操作都增加了确认环节,确保操作者知道操作的后果,并手动进行确认。
这次由于我们的工作失误而引发了大范围的服务中断,我们在此向大家深切地道歉。 同时为了表达我们的歉意,我们会免掉所有应用在 2 月 19 日除短信服务之外产生的全部费用。 我们将在后续几日进行退费操作,退费完成时,您将收到账户余额变动的邮件通知,请耐心等待。具体金额届时也可以通过 控制台 > 交易历史 > 充值历史 查询。 |