即时通讯网 › 专项技术区 › IM开发阿里IM技术分享(八)：深度解密钉钉即时消息服务DTIM的技 ...

即时通讯网»社区 › 专项技术区 › IM开发 › 阿里IM技术分享(八)：深度解密钉钉即时消息服务DTIM的技 ...

阿里IM技术分享(八)：深度解密钉钉即时消息服务DTIM的技术设计

查看数: 92877 | 评论数: 26 | 收藏 6

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

JackJiang

发布时间: 2022-08-15 00:30

正文摘要:

本文引用自InfoQ社区“5亿用户如何高效沟通？钉钉首次对外揭秘即时消息服务DTIM”一文，作者陈万红等、策划褚杏娟，即时通讯网有修订和改动，原文链接在文末。一、引言本文是国内企业IM的事实王者钉钉首次对外深 ...

寒武三叶虫1 发表于 10 个月前

引用：Frank 发表于 2023-03-14 08:21
这种设计明显是后期补的漏洞，完全推的思路，后期发现问题了，再补充。我们早期也是推，结果经常把客户端 ...

这里的rebase流程确实没有说清楚，只说客户端pts和服务端pts相差太大，就返回客户端rebase，然后客户端来拉最新的消息同时更新pts，由于pts是用户维度的，那么客户端来拉最新消息是怎么拉的？从文中描述看起来是像会话的最新消息，也就是说rebase的时候，需要用户把所有会话的最新消息都拉回去？如果是这样存在一个问题，用户的所有会话难道是同步入库的？如果是异步入库那么用户的会话列表就会有延迟，进而导致rebase流程也会有问题。

不清楚钉钉的rebase细节是啥

Frank 发表于 1 年前

引用：yqfclid 发表于 2022-08-31 16:58
DTIM 采用了会话维度划分：因为人和会话都是元数据，数据规模有限，消息数据近乎无限，消息归属于会话，会 ...

这里应该是,把消息推送到用户所在单元同步服务;同步服务推送时,根据是否在线来确定.

Frank 发表于 1 年前

一说: 当消息进入Receiver之后，会先查询此cid:1001所在的单元，发现是Unit A，路由框架将请求转到A单元，消息在A单元持久化并通过A单元的同步协议，将数据推送到客户端
二说: Processor 消费到 IM 发送事件首先做按接收者的地域分布（DTIM 支持跨域部署， Geography，Geo）做消息事件分流
上面说的是会话路由,下面说的是消息同步分流? @JackJiang 请教站长

Frank 发表于 1 年前

引用：JackJiang 发表于 2022-08-23 10:34
嗯嗯，关键是要动手实践，光看看的话，很快就忘记了

确实要动手;反推他们的实现,然后画成完整的图逻辑,自圆其说也是可以的.

Frank 发表于 1 年前

引用：JackJiang 发表于 2022-08-18 21:59
这篇文章是目前为止，有关钉钉的最有价值技术干货，有兴趣的，一定读一读！

JackJiang 发表于 1 年前

引用：Frank 发表于 2023-03-14 08:23
拉消息肯定有个应用服务来聚合下。

这就叫专业

Frank 发表于 1 年前

引用：yqfclid 发表于 2022-08-31 16:58
DTIM 采用了会话维度划分：因为人和会话都是元数据，数据规模有限，消息数据近乎无限，消息归属于会话，会 ...

消息肯定跨单元路由的；
在线状态，同步到不同的中心。推送给用户时，查询状态是否在线。

Frank 发表于 1 年前

引用：yqfclid 发表于 2022-08-31 16:58
DTIM 采用了会话维度划分：因为人和会话都是元数据，数据规模有限，消息数据近乎无限，消息归属于会话，会 ...

拉消息肯定有个应用服务来聚合下。

Frank 发表于 1 年前

引用：espen 发表于 2022-08-22 19:56
有个问题点，想请教下：

在4.3中，提到钉钉的消息存储使用的是消息读扩散+写扩散的方式，群内普通消息写 ...

这种设计明显是后期补的漏洞，完全推的思路，后期发现问题了，再补充。我们早期也是推，结果经常把客户端推死，异常不太靠谱。
这里在线的时候：可以理解为每个用户有个队列 uid～msg1，msg 10，...，挨个的推下去；
离线变在线，也推，只是太多超过阀值2000条，则推条最新的让客户端来拉最新的，这里没有说清楚，其实应该拉什么呢？那么多会话

Frank 发表于 1 年前

引用：mayongjian 发表于 2022-09-04 20:09
因为人和会话都是元数据，数据规模有限，消息数据近乎无限，消息归属于会话，会话与会话之间并无交集，消息 ...

业务单元服务-直接跟各个接入层按需对接:
客户端A -->接入层--> 根据会话直接对接: 单元A 单元B,单元C ,根据业务路由获取,不用跨单元调用

其实就跟单元调用之间没什么关系了

Frank 发表于 1 年前

引用：JackJiang 发表于 2022-08-22 22:19
其实说到扩散写和扩散写，主要讨论的是群聊，群聊肯定会有一份全量消息存储。而针对每个端的记录，应该不 ...

但看文档的图说的数据模型例子:
确实同步这里不仅保存了位点,而且保存了消息; 但是不一定全量,比如可以最多保存2000条的队列大小

Frank 发表于 1 年前

引用：天神佑护发表于 2022-10-08 01:27
不懂就问，请教：4.2 中所指钉钉使用的异步消息队列和同步消息队列分别是什么产品呀？RocketMQ? Kafka? Pul ...

很显然是 rocketmq 自己的产品
rocketmq 有自己的特性,其他mq没有

Frank 发表于 1 年前

引用：yqfclid 发表于 2023-01-07 15:20
同步服务按接收者维度写入各自的同步队列，同时查取当前用户设备在线状态，当用户在线时捞取队列中未同步的 ...

多级缓存:本地缓存

yqfclid 发表于 1 年前

同步服务按接收者维度写入各自的同步队列，同时查取当前用户设备在线状态，当用户在线时捞取队列中未同步的消息，通过接入层长连接推送到各端。当用户离线时，打包消息数据以及离线用户状态列表为 IM 通知事件，转发给通知服务的 PNS 模块，PNS 查询离线设备做三方厂商通道推送，至此一条消息的推送流程结束。

这个是怎么查询当前设备的在线状态的，是查redis吗？如果是一条群聊消息群里有一万个人那岂不是要查1000次？

JackJiang 发表于 2 年前

引用：天神佑护发表于 2022-10-08 01:27
不懂就问，请教：4.2 中所指钉钉使用的异步消息队列和同步消息队列分别是什么产品呀？RocketMQ? Kafka? Pul ...

它这个队列不一定指的是常规应用系统里用的MQ，也有可能是自已实现的一种队列算法或缓存读写机制，可以是一个模块或独立的服务

天神佑护 发表于 2 年前

不懂就问，请教：4.2 中所指钉钉使用的异步消息队列和同步消息队列分别是什么产品呀？RocketMQ? Kafka? Pulsar? 本文中涉及的消息队列都有哪些？

JackJiang 发表于 2 年前

引用：mayongjian 发表于 2022-09-04 20:09
因为人和会话都是元数据，数据规模有限，消息数据近乎无限，消息归属于会话，会话与会话之间并无交集，消息 ...

这一块在文章里其实是没有明确说清楚

mayongjian 发表于 2 年前

因为人和会话都是元数据，数据规模有限，消息数据近乎无限，消息归属于会话，会话与会话之间并无交集，消息处理时并没有跨单元的调用。因此，将不同的会话拆分到不同的单元，保障了消息数据仅在一个单元处理和持久化，不会产生跨单元的请求调用，进而实现了单元自封闭。

”不会产生跨单元的请求调用“ 如果 A与B通信，并且A与B处于不同单元，不会跨单元请求调用，这个怎么理解啊

yqfclid 发表于 2 年前

DTIM 采用了会话维度划分：因为人和会话都是元数据，数据规模有限，消息数据近乎无限，消息归属于会话，会话与会话之间并无交集，消息处理时并没有跨单元的调用。因此，将不同的会话拆分到不同的单元，保障了消息数据仅在一个单元处理和持久化，不会产生跨单元的请求调用，进而实现了单元自封闭。

会话维度划分是指拉取消息的接口会固定在一个单元吗，是不是就是说在线消息的路由会跨单元进行路由，那么如何单元之间如何进行在线状态的同步呢

阿里IM技术分享(八)：深度解密钉钉即时消息服务DTIM的技术设计

正文摘要:

评论

即时通讯网

友情链接[友链交换]

关于

微信公众号new