默认
即时通讯网 资讯 即时通讯云 LeanCloud 2月19日因技术故障致全部服务中断半小时
即时通讯网 首页 资讯 查看内容
想开发IM:买成品怕坑?租第3方怕贵?找开源自已撸?尽量别走弯路了... 找站长给点建议

即时通讯云 LeanCloud 2月19日因技术故障致全部服务中断半小时

52im.net · 8 年前 | 阅读(12921)· 评论(2| 来源 LeanCloud 转发 收藏

摘要 2016 月 2 月 19 下午 3 点左右,即时通讯云 LeanCloud 因技术故障致所有服务中断半小时以上。
2016 月 2 月 19 下午 3 点左右,即时通讯云 LeanCloud 因技术故障致所有服务中断半小时以上。以下是LeanCloud官方关于此次故障的说明:

故障时间

15:17 至 15:50(持续约 33 分钟)

影响范围

除了单纯的静态网站托管服务未受影响之外,其他所有服务,包括结构化数据存储、文件存储、云引擎、聊天、短信、推送、统计等功能都暂时无法使用。

故障处理时间线

  • 15:17:我们在部署新服务时无意触发了一项误操作,但并未意识到由此会导致上述服务停止。
  • 15:17:我们在同一时间接到系统监控报警,经检查发现 LeanCloud 网站无法登录,API 服务日志也已中断,同时有部分用户也向我们反馈,确认了服务已不可用。
  • 15:19:我们随即启动回滚操作,所有服务陆续开始重启。
  • 15:25:API 等服务逐步启动,但是流量还没对外开放。
  • 15:30:开放 API 流量, 数据存储服务以及依赖于它的云引擎服务开始逐步恢复。继而聊天、统计、推送服务也逐步恢复。
  • 15:50:所有服务恢复正常。

后续改进措施

  1. 贯彻执行故障通报流程 :由于本次故障事发突然,影响面广,我们一直专注在恢复服务上,却疏忽了与用户及时沟通问题和进展这一已有流程。我们深知在故障期间这一流程对用户来说至关重要,所以我们今后会切实执行这一流程,明确故障通报的负责人和替补人、通报时机、通报内容、通报渠道(如邮件或短信)等。
  2. 对部署服务进行权限和功能上的细分 :限制其操作的影响范围,杜绝一条指令导致所有服务停止运转的情况。
  3. 完善后台管理系统 :确保管理系统的所有操作都增加了确认环节,确保操作者知道操作的后果,并手动进行确认。

这次由于我们的工作失误而引发了大范围的服务中断,我们在此向大家深切地道歉。 同时为了表达我们的歉意,我们会免掉所有应用在 2 月 19 日除短信服务之外产生的全部费用。 我们将在后续几日进行退费操作,退费完成时,您将收到账户余额变动的邮件通知,请耐心等待。具体金额届时也可以通过 控制台 > 交易历史 > 充值历史 查询。

即时通讯网 - 即时通讯开发者社区! 来源: - 即时通讯开发者社区!

0 推荐

相关阅读

JackJiang 8 年前
即时通讯用云就怕碰到类似的问题,出了问题没办法向自已的用户交待。
难道说是LeanCloud云服务出了问题?用户可能会问,我明明用的是你的APP,跟这啥Cloud有一毛钱关系?
总之,最好别出问题,出了问题就麻烦了。。。
阿涛x 8 年前
改进措施中没有提到如何改进测试流程,难道你们上线前不在准生产环境中(或仿真环境)测试吗?
完善的测试流程是能提前避免这种问题的。

返回顶部