默认
即时通讯网 资讯 [资讯] LeanCloud 7月13日即时通讯服务瘫痪48分钟!
即时通讯网 首页 资讯 查看内容
想开发IM:买成品怕坑?租第3方怕贵?找开源自已撸?尽量别走弯路了... 找站长给点建议

[资讯] LeanCloud 7月13日即时通讯服务瘫痪48分钟!

JackJiang · 8 年前 | 阅读(13501)· 评论(0)| 来源 LeanCloud 转发 收藏

摘要 即时通讯云服务商LeanCloud 2016年7月13日因由于突发硬件故障,导致雪崩致使即时通讯服务瘫痪48分钟之久!
以下消息来自LeanCloud官方:

7 月 13 日早上 9 点左右,我们内部在使用中国节点的应用控制台时遇到报错,于是很快便定位到某一集群由于突发硬件故障而引起存储服务中断,经过抢修问题得以解决。大约一小时后正当我们在继续对该集群进行加固处理时,突然遇到流量高峰,该集群的性能逐渐下降并再次发生了故障。此次故障影响到中国节点上 20% 的应用无法使用存储及其依赖服务,如实时通信、云引擎等。美国节点不受影响。

故障时间及范围

  • 08:49 - 09:08:存储服务内部某一集群发生硬件故障,导致 20% 的应用的存储服务中断(约 19 分钟)。
  • 09:53 - 10:22:该集群受到流量冲击后性能降低并再次瘫痪(约 29 分钟)。

前后共持续约 48 分钟。

事故过程

  • 08:49:应用控制台出现报错,立即进行排查。
  • 08:56:发现某个集群硬件故障,导致集群性能不断降低,响应过于缓慢,到几乎不可用。
  • 09:08:隔离故障机器,重启相关服务后,集群慢慢恢复了正常。
  • 09:53:有大量连接涌入,堵塞了存储系统的读写队列,使得该集群性能再次下降。
  • 09:58:该集群响应过于缓慢,几乎不可用。开始阻断连接,扩充集群并重启集群上的相关服务。
  • 10:22:集群服务逐步恢复,并重新开放连接。

后续改进措施

  • 加强对集群硬件失败的监控和报警。
  • 提高自动化故障处理能力,降低系统 downtime 时间。
  • 尽快升级底层存储系统的存储引擎,减少读写队列拥塞的可能性,进一步提升服务性能。
LeanCloud官方地址:http://leancloud.cn

即时通讯网 - 即时通讯开发者社区! 来源: - 即时通讯开发者社区!

0 推荐

相关阅读

最新评论

返回顶部