默认
即时通讯网 资讯 [资讯] LeanCloud 6月30日即时通讯服务瘫痪43分钟!
即时通讯网 首页 资讯 查看内容
想开发IM:买成品怕坑?租第3方怕贵?找开源自已撸?尽量别走弯路了... 找站长给点建议

[资讯] LeanCloud 6月30日即时通讯服务瘫痪43分钟!

JackJiang · 8 年前 | 阅读(14326)· 评论(1| 来源 LeanCloud 转发 收藏

摘要 即时通讯云服务商LeanCloud 2016年6月30日因一组负责实时通信服务数据统计的缓存机器发生故障,而导致雪崩致使即时通讯服务瘫痪43分钟之久!
以下消息来自LeanCloud官方:

6 月 30 日晚上 8 点左右,我们的实时通信服务发生了故障,导致大量应用的终端用户无法登录和发送消息,时间持续约 40 分钟,详细情况汇总如下。

故障时间

2016-06-30日  19:58 - 20:41(共计 43 分钟)

影响范围

LeanCloud 国内节点的实时通信服务受到影响(无法登录和发送消息),其它服务正常;美国节点一切服务正常。

事故经过

  • 19:58 一组负责实时通信服务数据统计的缓存机器发生故障,导致用户登录或发送消息出现阻塞,类似操作开始消耗内部线程池资源;
  • 20:05 线程池资源耗尽,所有用户登录过程都会失败;
  • 20:22 确定了故障原因,开始重启缓存服务程序,但是服务程序所在机器因为压力过大失去响应,转而重启物理机器;
  • 20:33 缓存服务恢复正常,登录和发消息等请求开始恢复正常(为了加速我们新增了部分实时通信服务程序,以增加响应能力);
  • 20:41 实时通信服务恢复正常。
    下图中的黄线是故障时段前后的登录请求数量变化趋势曲线,与上述故障时间线吻合:
    scrot

后续改进措施

  • 聊天服务监控程序改由 Marathon 来自动部署并执行。该监控程序因前期的一次操作而被暂停,结果未能捕捉到此次服务异常,所以我们加入程序化的手段来保证其始终运行。(已完成)
  • 增加对统计数据缓存服务的监控。(已完成)
  • 增加对于登录请求数异常变化的监控。(已完成)
  • 进一步优化实时通信服务的架构,针对所有环节做好容错,防止类似的阻塞操作再次出现。(一周内解决)
即时通讯云 LeanCloud 官方网站:https://leancloud.cn/

即时通讯网 - 即时通讯开发者社区! 来源: - 即时通讯开发者社区!

0 推荐

相关阅读

JackJiang 8 年前
现在的即时通讯云的技术和商业模式应该是有问题,否则照这样下去,云的规模越大,服务商的压力越大,为了实现弹性云,成本也就越来越大

返回顶部