默认
打赏 发表评论 11
想开发IM:买成品怕坑?租第3方怕贵?找开源自已撸?尽量别走弯路了... 找站长给点建议
58到家实时消息系统的协议设计等技术实践分享
阅读(110477) | 评论(11 收藏4 淘帖2 1
微信扫一扫关注!

前言


本文内容整理自58到家平台部负责人任桃术的演讲内容。主要内容包括三部分:消息平台产生的背景、它的整体架构和系统重点以及遇到并解决了哪些问题。

消息推送平台产生的背景


消息平台产生的背景是基于58核心的业务——58速运,58速运的业务是做最便捷的同城的货运。

之前一个速运系统出现问题时,GPS上报跟滴滴的业务比较相近,区别在于滴滴是运人,我们这边是运货。这时存在着一些问题,由于GPS上报比较频繁,系统压力比较大。此外,我们向多个司机推送订单的时候,对于系统的关注性能比较弱,前期采用HTTP的方式进行消息推送,可能导致可用性和消息的到达有问题。因此我们开发了实时消息推送平台,目的就是解决系统的稳定性等性能问题,为业务部门减少压力。

新消息推送系统的整体架构


所有系统设计的话,都是基于某个业务场景的,这里简单介绍一下速运的业务场景。主要包括两端,一个是APP端,可能是用户使用或者是客户的司机,对于司机端知道司机处于哪个位置,会有GPS上报。另外用户下单,对应也是APP操作的。另一个是司机端,我们将用户的订单从APP-server这边推送给附近一批司机的时候,会有司机抢单的流程,把订单消息推送到各个司机端。当然还有其他实时的消息,因为作为一个通用的消息平台,不仅仅服务速运这个业务,还有58到家的家政、丽人等其他业务。

基于上述的业务,我们做了如图1所示的架构设计,整体来说是比较简单的。

58到家实时消息系统的协议设计等技术实践分享_1.png

APP端,用户或司机会有下单的流程,有两类消息:第一类消息从APP端发起,用户下单,最终将消息推送给APP-server,另外一个就是从APP-server往APP端走。

msg-gate负责整合百万连接,维护与APP端的海量tcp连接;建立安全的消息通道,消息加解密、消息解压缩、消息流量监控、黑白名单;消息投递,接收APP端投递过来的消息,推送app-server投递过来的消息给APP端。因为要得到实时,优化了没有采用现有业务的方式上报。这边对于gate就是百万链接的流量整合。另外一个它会有逻辑层,将逻辑层转换MQ,这是整体的流程。

一般像我们服务的话,因为哪一个司机和哪个客户对接都要通过消息平台进行发送,所以对于gate层是比较特殊的,是有状态的。另外有一个逻辑层,主要职责也比较简单,就是跟业务相关的,逻辑层最核心的东西就是必须把gate层这边的消息重组到APP上,就是gate和APP有怎样的关系,这是server往APP端的东西。逻辑层职责比较简单,一个就是业务处理,还有也是业务相关的逻辑。

新消息推送系统的设计重点


其实从整体来说,架构还是比较简单的,但最终实现并不是我们想象的那么简单,主要有两个方面的问题:协议设计和快速重连,里面可能会有很多细节。

1协议设计


我们在进行协议设计时候,主要考虑扩展性、可调试性和异步处理。

首要是扩展性。我们可以想象一下,消息平台里面,可能会有哪些扩展的需求?第一类有各种报文,比如登录、APP业务、appserver推送、keepalive等。最终消息推送的话肯定是业务的消息,对于业务包数据的变更我们要做到可扩展。其实也很简单,对于报文的话,比如登陆的话是一个,发消息的是另外一个。另外我们消息传送的话,有几类消息,可能我是个请求消息,另外可能是发出请求之后别人会返回我一个消息,还有一个就是由APP推过来的,在网络上面只有读和写或者收发,但是并不确认这个消息到底属于哪一个类型,所以这边有一个标识。如下图所示。

58到家实时消息系统的协议设计等技术实践分享_2.png

一般的话可能还有更复杂的业务,比如有好友、匿名登陆,基于这一类设计的话,可能还会有一个协议的命令,比如登陆有登陆的协议,或者好友有好友的,对应好友可能有一些子命令,比如查看好友信息。如果类似复杂的业务可以把这些消息包规范好,另外像匿名登陆可以用协议族方式,一个大的协议族可以有子命令。另外业务数据包的话,可以通过变长的包体,只要跟业务方约定好,我们是基于怎样训练化的机制就可以了,至于里边放怎样的数据,其实随便,所以就可以做到很好的扩展。

另外可调试性,因为消息的流转会有很多环节,APP端开始到gate,再到MQ等等,假设某个请求包处理失败,我们如何快速知道这个消息包已经流转到哪个步骤了?是APP端的问题,还是msg-gate的问题,还是msg-logic的问题,还是redis的问题?解决的方案比较简单,就给一个统一标识就可以了。如下图所示。

58到家实时消息系统的协议设计等技术实践分享_3.png

还有一个异步化的支持。这种消息通道最重要的是解决通道问题,所有消息处理不能是同步的,必须是异步的,你发一个消息出去,ABC三个包,你收到XYZ三个包之后,你怎么知道它是对应的,就是对应关系的话我们怎么处理,就是加一个ID,如下图所示。

58到家实时消息系统的协议设计等技术实践分享_4.png

你可以维持一个发送包的上下文队列,当你收到包之后你从对应找到上下文做到处理。异步化处理的话两点,第一点是要有队列,另外一个就是必须要有一个回调,基本是队列加回调,因为收到小型包之后回去怎么做不确定,一般是这两个可以解决。

2快速重连


另外一个TCP的快速重连,连接之后只是说明我们可以收发包消息了,但是连接之前要做一些验证,比如是不是合法用户等。

我们解决快速重连的方法就是射线保持,不会清掉就没必要重复创建了。由于无线网络特别不稳定,射线保持也会引入其他的问题。如果断开,射线还在这里的话有两类消息,一类消息从APP-server推送到APP端的时候,因为TCP已经断开了,对应的其实你是发不出去消息的,这种情况下怎么办。

可能会导致往一群司机推送订单的时候,这些司机就断开了,推送会失败,现在的做法会把射线清掉。因为这个情况没法重建TCP链接,因为是从server端到APP端的。

另外一类,APP端往app-server推送消息的时候,因为我们这边TCP连接之后肯定有一些机制保持连接,一种通过心跳,另外再发消息的时候,我会重新建立TCP连接,会出现一个问题,重建连接的时候,我发送连接请求的服务器的话,可能不是上一台,之前连了一台服务器,现在网络点开重连,选的是另外一台服务器,这个是有问题的,导致用户在两台上边登陆了,这个问题怎么解决。

第一个问题,我们其实不好再重建TCP连接,因为是APP-server到APP的推送,好的做法就是把这个射线清掉,因为我们维护了APP端到gate的连接,这个是需要做的。另外一个就是像这种APP端同时登陆两个gate的时候,首先第一步把上一个清掉,重新再建立新的TCP连接。这个东西会有问题就是说网络不稳定,出现APP端跟好几个接入层进行了连接,优化的方案就是会在APP端做一些处理,比如可以记录上一次我和哪一台服务器连接,下一次网络有连接的时候就走上一台的,这样就不会导致登陆两个服务器的情况。

以上是我对到家实时消息推送平台的介绍,希望能够对大家有所帮助。

全站即时通讯技术资料分类


[1] 网络编程基础资料:
TCP/IP详解 - 第11章·UDP:用户数据报协议
TCP/IP详解 - 第17章·TCP:传输控制协议
TCP/IP详解 - 第18章·TCP连接的建立与终止
TCP/IP详解 - 第21章·TCP的超时与重传
理论经典:TCP协议的3次握手与4次挥手过程详解
理论联系实际:Wireshark抓包分析TCP 3次握手、4次挥手过程
计算机网络通讯协议关系图(中文珍藏版)
NAT详解:基本原理、穿越技术(P2P打洞)、端口老化等
UDP中一个包的大小最大能多大?
Java新一代网络编程模型AIO原理及Linux系统AIO介绍
NIO框架入门(三):iOS与MINA2、Netty4的跨平台UDP双向通信实战
NIO框架入门(四):Android与MINA2、Netty4的跨平台UDP双向通信实战
>> 更多同类文章 ……

[2] 有关IM/推送的通信格式、协议的选择:
为什么QQ用的是UDP协议而不是TCP协议?
移动端即时通讯协议选择:UDP还是TCP?
如何选择即时通讯应用的数据传输格式
强列建议将Protobuf作为你的即时通讯应用数据传输格式
移动端IM开发需要面对的技术问题(含通信协议选择)
简述移动端IM开发的那些坑:架构设计、通信协议和客户端
理论联系实际:一套典型的IM通信协议设计详解
58到家实时消息系统的协议设计等技术实践分享
>> 更多同类文章 ……

[3] 有关IM/推送的心跳保活处理:
Android进程保活详解:一篇文章解决你的所有疑问
Android端消息推送总结:实现原理、心跳保活、遇到的问题等
为何基于TCP协议的移动端IM仍然需要心跳保活机制?
微信团队原创分享:Android版微信后台保活实战分享(进程保活篇)
微信团队原创分享:Android版微信后台保活实战分享(网络保活篇)
移动端IM实践:实现Android版微信的智能心跳机制
移动端IM实践:WhatsApp、Line、微信的心跳策略分析
>> 更多同类文章 ……

[4] 有关WEB端即时通讯开发:
新手入门贴:史上最全Web端即时通讯技术原理详解
Web端即时通讯技术盘点:短轮询、Comet、Websocket、SSE
SSE技术详解:一种全新的HTML5服务器推送事件技术
Comet技术详解:基于HTTP长连接的Web端实时通信技术
WebSocket详解(一):初步认识WebSocket技术
socket.io实现消息推送的一点实践及思路
>> 更多同类文章 ……

[5] 有关IM架构设计:
浅谈IM系统的架构设计
简述移动端IM开发的那些坑:架构设计、通信协议和客户端
一套原创分布式即时通讯(IM)系统理论架构方案
从零到卓越:京东客服即时通讯系统的技术架构演进历程
蘑菇街即时通讯/IM服务器开发之架构选择
腾讯QQ1.4亿在线用户的技术挑战和架构演进之路PPT
微信技术总监谈架构:微信之道——大道至简(演讲全文)
如何解读《微信技术总监谈架构:微信之道——大道至简》
快速裂变:见证微信强大后台架构从0到1的演进历程(一)
17年的实践:腾讯海量产品的技术方法论
>> 更多同类文章 ……

[6] 有关IM安全的文章:
即时通讯安全篇(一):正确地理解和使用Android端加密算法
即时通讯安全篇(二):探讨组合加密算法在IM中的应用
即时通讯安全篇(三):常用加解密算法与通讯安全讲解
即时通讯安全篇(四):实例分析Android中密钥硬编码的风险
传输层安全协议SSL/TLS的Java平台实现简介和Demo演示
理论联系实际:一套典型的IM通信协议设计详解(含安全层设计)
微信新一代通信安全解决方案:基于TLS1.3的MMTLS详解
来自阿里OpenIM:打造安全可靠即时通讯服务的技术实践分享
>> 更多同类文章 ……

[7] 有关实时音视频开发:
即时通讯音视频开发(一):视频编解码之理论概述
即时通讯音视频开发(二):视频编解码之数字视频介绍
即时通讯音视频开发(三):视频编解码之编码基础
即时通讯音视频开发(四):视频编解码之预测技术介绍
即时通讯音视频开发(五):认识主流视频编码技术H.264
即时通讯音视频开发(六):如何开始音频编解码技术的学习
即时通讯音视频开发(七):音频基础及编码原理入门
即时通讯音视频开发(八):常见的实时语音通讯编码标准
即时通讯音视频开发(九):实时语音通讯的回音及回音消除概述
即时通讯音视频开发(十):实时语音通讯的回音消除技术详解
即时通讯音视频开发(十一):实时语音通讯丢包补偿技术详解
即时通讯音视频开发(十二):多人实时音视频聊天架构探讨
即时通讯音视频开发(十三):实时视频编码H.264的特点与优势
即时通讯音视频开发(十四):实时音视频数据传输协议介绍
即时通讯音视频开发(十五):聊聊P2P与实时音视频的应用情况
即时通讯音视频开发(十六):移动端实时音视频开发的几个建议
即时通讯音视频开发(十七):视频编码H.264、V8的前世今生
简述开源实时音视频技术WebRTC的优缺点
良心分享:WebRTC 零基础开发者教程(中文)
>> 更多同类文章 ……

[8] IM开发综合文章:
移动端IM开发需要面对的技术问题
开发IM是自己设计协议用字节流好还是字符流好?
请问有人知道语音留言聊天的主流实现方式吗?
IM系统中如何保证消息的可靠投递(即QoS机制)
谈谈移动端 IM 开发中登录请求的优化
完全自已开发的IM该如何设计“失败重试”机制?
微信对网络影响的技术试验及分析(论文全文)
即时通讯系统的原理、技术和应用(技术论文)
开源IM工程“蘑菇街TeamTalk”的现状:一场有始无终的开源秀
>> 更多同类文章 ……

[9] 开源移动端IM技术框架资料:
开源移动端IM技术框架MobileIMSDK:快速入门
开源移动端IM技术框架MobileIMSDK:常见问题解答
开源移动端IM技术框架MobileIMSDK:压力测试报告
开源移动端IM技术框架MobileIMSDK:Android版Demo使用帮助
开源移动端IM技术框架MobileIMSDK:Java版Demo使用帮助
开源移动端IM技术框架MobileIMSDK:iOS版Demo使用帮助
开源移动端IM技术框架MobileIMSDK:Android客户端开发指南
开源移动端IM技术框架MobileIMSDK:Java客户端开发指南
开源移动端IM技术框架MobileIMSDK:iOS客户端开发指南
开源移动端IM技术框架MobileIMSDK:Server端开发指南
>> 更多同类文章 ……

[10] 有关推送技术的文章:
iOS的推送服务APNs详解:设计思路、技术原理及缺陷等
Android端消息推送总结:实现原理、心跳保活、遇到的问题等
扫盲贴:认识MQTT通信协议
一个基于MQTT通信协议的完整Android推送Demo
求教android消息推送:GCM、XMPP、MQTT三种方案的优劣
移动端实时消息推送技术浅析
扫盲贴:浅谈iOS和Android后台实时消息推送的原理和区别
绝对干货:基于Netty实现海量接入的推送服务技术要点
移动端IM实践:谷歌消息推送服务(GCM)研究(来自微信)
为何微信、QQ这样的IM工具不使用GCM服务推送消息?
>> 更多同类文章 ……

[11] 更多即时通讯技术好文分类:
http://www.52im.net/forum.php?mod=collection&op=all

(原文链接:http://blog.qiniu.com/archives/4932

即时通讯网 - 即时通讯开发者社区! 来源: - 即时通讯开发者社区!

标签:推送技术
上一篇:移动端实时消息推送技术浅析下一篇:58到家实时消息系统的架构设计及技术选型经验总结

本帖已收录至以下技术专辑

推荐方案
评论 11
这篇文章里有关协议的设计,可以作为IM、推送系统的协议设计参考哦。

文章提到的客户端与集群的连接可能存在重复的问题,个人理解这应该是设计的一个很大缺陷,因为连接谁由客户端自已决定,不太可能同一客户端还能同时连接到不同的集群服务器上,估计客户端的网络层设计的不够优雅导致业务逻辑层层耦合——一个小问题都很难解决了。
一个客户端连接两个服务器的问题,这个在login的时候同步登陆信息到router的时候,直接把老的连接kickout就可以了,这个服务器间就可以保证。
签名: 哈哈哈哈
引用:anbian 发表于 2017-02-03 16:54
一个客户端连接两个服务器的问题,这个在login的时候同步登陆信息到router的时候,直接把老的连接kickout就 ...

引用:JackJiang 发表于 2016-05-12 10:31
这篇文章里有关协议的设计,可以作为IM、推送系统的协议设计参考哦。

文章提到的客户端与集群的连接可能 ...

我觉得这个就跟nat的问题有点类似,实现的方式不同,大多数情况下,咱们采取的方案就是客户端决定,转接映射表不需要决定哪个
引用:zjjishitongxun 发表于 2017-08-02 15:38
我觉得这个就跟nat的问题有点类似,实现的方式不同,大多数情况下,咱们采取的方案就是客户端决定,转接 ...

不太理解你的意思
引用:JackJiang 发表于 2017-08-02 16:32
不太理解你的意思

我觉得这个问题是nat穿越的问题,你说的这种方式一般采用的中间件的方式
有一个疑问啊,为什么包体设计第一个字段不是length,而是version,这样设计有什么好处吗?
引用:x931609201 发表于 2017-12-11 16:45
有一个疑问啊,为什么包体设计第一个字段不是length,而是version,这样设计有什么好处吗?

定长字段顺序无所谓,看个人喜好
好站,真心不错
记录上一台? 服务没代理吗?
引用:mozhengxin 发表于 2020-07-13 11:24
记录上一台? 服务没代理吗?

你说的代理是指LBS前端放一台nginx?
打赏楼主 ×
使用微信打赏! 使用支付宝打赏!

返回顶部