默认
即时通讯网 资讯 独家采访微信团队:谁在用人工智能武装微信?
即时通讯网 首页 资讯 查看内容
想开发IM:买成品怕坑?租第3方怕贵?找开源自已撸?尽量别走弯路了... 找站长给点建议

独家采访微信团队:谁在用人工智能武装微信?

52im.net · 11 年前 | 阅读(48566)· 评论(1| 来源 51CTO 转发 收藏

摘要 微信 5.0“扫一扫”发布的时候,被讨论得最多的是它所承载的商业化重任。被忽视的,是背后的技术,及技术蕴藏的趋势。同样地,这个版本亮相的微信自主研发语音识别技术,也为外界所震惊和质疑。
基础研究没有‘失败’,只有时机”

模式识别团队从 2012 年 9 月加入微信团队,至今一共开发了五个大功能:通讯录语音搜索(v4.3),语音提醒(v4.5),摇一摇搜歌(v4.5),增强版“扫一扫”(v5.0)和“语音输入”功能(v5.0)。我问陈波有没有失败的项目,她的回答很有意思:

很多东西我们不认为是失败。有些技术目前没有发布,不代表将来不需要;可能只是这个阶段没有,在未来一定会有。比如我们做的很多增强现实(AR)的东西,现在无线带宽不允许,因而没有发布;但 2、3 年后网络不再是问题了,技术就能够落地。我们不会 care“你做的东西没有用”或“短期没有用处”,我们不以这个作为技术衡量的标准。

她以 4G 网络的发展举例。“增强现实和移动视觉搜索技术,现在费了很大精力去做流量限制(比如“扫一扫”扫描封面/CD/海报会有前端后端做各种判断以减少流量,最终控制在几 KB)”,陈波说,“但是以后在 4G 时代,流量更宽裕了,可以做很多事情,比如展现更酷炫的效果,把增强现实带到前端来”。本月初我的同事何宗丞在美国参加高通 Uplinq 大会的时候就看到了高通这方面的技术研究成果。不过据爱范儿了解,国内 4G 牌照要到 11 月才会发放,至少一年后 4G 才能迎来蓬勃发展,意味着受网络条件的制约,各类创新技术要在国内掀起热潮仍有待时日。

回到微信的话题,“现阶段没有”的一个功能是“名片识别”。在 8 月 5 日微信 5.0 发布前,我们曾听说微信可能发布名片识别功能,对名片全能王这类产品将形成冲击;但这个版本发布后,名片识别功能不见踪影,他们又松了一口气。据陈波告诉爱范儿,名片识别功能确实将会发布,但目前还在提高准确率,“有了良好的用户体验后才会考虑发布”。

除了名片识别外,据说 4.5 版本的“摇一摇”搜歌发布前陈波也经历煎熬。“当时该功能在 4.5 版本中是一个不确定发布的功能,但大家积极性很高,经常周末过来加班,当时甚至想干脆不发了。不过最终还是做出来了,而且做得很不错”,陈波说加入微信后,感触最深的是微信团队的执行力,“微信团队的最大优势是超强的执行力,大家都带着梦想做事。比如‘打飞机’游戏就是一个人两个星期开发出来的,人脸识别也是 1 个人做出来的”。

我让陈波用三个词来形容自己的团队,她使用的是“精益求精”、“兴趣爱好”、“踏实”。并作出解释:

精益求精:对于基础技术研究来说,精益求精很重要。从测试级、训练级到评测,准确率能做到 99% 一定不做 98%。这从产品上可能没什么概念,但从技术上来讲,它意味着让用户失败了很多次。

兴趣爱好:很多创新是由兴趣驱动的,对这一行不热爱、不喜欢,是创造不出好东西来的。比如我们在招人过程中,不会为了扩张而扩张,而是每个人都要有他的价值,是否热爱人工智能技术。

踏实:搞基础研究,一个小的方向,由 1、2 个人做,从头到尾做很多事情,包括 demo、实验、效果总结,需要踏实的心态去做。我们做研究,做到了 90%,如何把剩下的 10% 做好,就要耐得住寂寞,要有好的态度,持续的追求。

目前陈波的团队除了研究新功能外,日程表上排在前面的还有各种优化工作,包括扫一扫中封面、条码的识别率,语音识别的精度,本身库的搭建等等。她说团队也在考虑如何做开放平台,把他们的自研技术开放出来,供大家使用。“更多人来使用,才能更好了解用户需求,才能更容易看清未来趋势”。

即时通讯网 - 即时通讯开发者社区! 来源: - 即时通讯开发者社区!

相关阅读

什么狗屁云 8 年前
看起来很高大上的样纸。我不是指的这帮猥琐的程序员吊丝,说的是技术,哈哈

返回顶部