默认
即时通讯网 资讯 [资讯] LeanCloud 11月22日大面积瘫痪
即时通讯网 首页 资讯 查看内容
想开发IM:买成品怕坑?租第3方怕贵?找开源自已撸?尽量别走弯路了... 找站长给点建议

[资讯] LeanCloud 11月22日大面积瘫痪

JackJiang · 8 年前 | 阅读(11538)· 评论(1 转发 收藏

摘要 2016年11月22日,即时通讯云服务商LeanCloud中国节点所有服务瘫痪约 50 分钟。
以下消息来自LeanCloud官网:

11 月 22 日中午 12:55,我们收到来自内部监控系统的报警,发现 LeanCloud 中国节点的各项服务出现异常,经过近 50 分钟的抢修,最终在 13:45 将全部服务恢复。在此时段受到影响的应用较多,这令我们感到十分愧疚,所以在此诚恳地向用户们道歉,同时我们也将免掉中国节点用户账户在 2016 年 11 月 22 日所产生的除短信外的全部费用。

以下为本次故障的详细情况和改进措施,请大家监督和反馈。

故障节点和影响范围

本次故障仅发生在中国节点,存储服务和依托于存储的聊天、云引擎等各项服务都无法正常响应。

故障时间线

  • 12:55:内部监控系统发出报警,大量存储 API 节点失去响应,随后也有开发者反馈 API 响应异常。
  • 13:11:第一次重启了所有 API 节点,系统有所好转但很快又出现了恶化。
  • 13:36:定位到故障原因,是后台服务对部分特殊请求存在漏洞,系统资源被逐渐耗尽,致使各模块都无法正常提供服务。立即实施热修复,阻断流量,再次重启所有 API 节点。
  • 13:45:所有 API 节点运行正常,开放流量,各服务恢复正常。

后续措施

  • 加大 API 节点的资源配置,以期类似不可预知的事件发生时,可以延缓状态恶化的过程,争取更长的处理时间。(11 月 24 日前完成)
  • 本次故障原因比较复杂,内部定位花费了较长时间,因此需要进一步完善对网络延迟、缓存节点等内部各环节的监控与状态展示,缩短故障排查时间。(11 月 29 日前完成)
  • 详细排查所有资源消耗的潜在问题点,对自定义的结构化数据实现更严格的限制和检查。(12 月 8 日前完成)
详情请见:

即时通讯网 - 即时通讯开发者社区! 来源: - 即时通讯开发者社区!

0 推荐

相关阅读

wentiane 8 年前
。。

返回顶部