“两盒烟,三个月”,一诺千金
微信 5.0 加入自主研发语音识别技术,引起震动。很多人不相信腾讯能在一夜之间靠自己研发出这种高门槛、长周期、重积累的技术。行业龙头老大科大讯飞创业 10 多年还在不断完善这种技术——当然,讯飞在语义识别、云平台服务、串联产业链方面扎得更深。 但是,世界上没有奇迹,也没有“一夜之间”的传奇故事。 腾讯模式识别团队成立于 2010 年 9 月,前期图像技术成熟,较早落地。但它的语音识别技术起步晚,2011 年底才正式启动语音识别自研项目。显然,这个项目的启动受到了当年苹果发布 Siri 语音助手的影响,后者引发语音产业热潮——科大讯飞的股票迄今已经翻番。 到今年 8 月,语音识别自研项目历时一年半,模式识别中心终于攻克语音识别技术难题,并在微信 5.0 产品中正式亮相(“语音输入”功能)。由于模式识别团队属于研究型队伍,在前期主要集中于积累基础技术,加上腾讯的低调作风,才给外界造成“一夜之间冒出来”的感觉。 事实上,在此之前模式识别团队曾为微信开发多项人工智能技术。比如 2012 年 9 月发布的 4.3 版本中的通讯录语音搜索功能,2013 年 2 月发布的 4.5 版本中的语音提醒和“摇一摇”搜歌。但微信 4.5 版本中的“语音提醒”功能才引起外界对其语音技术的关注,一方面与微信受到的关注度相关——微信 1 月刚刚中旬宣布达到 3 亿用户,成为一个庞大的移动 IM 平台;另一方面“语音提醒”功能非常显眼,不像“摇一摇”搜歌或“扫一扫”那么隐蔽或难于理解。 关于微信 4.5 版本的“语音提醒”功能,外界所不知道的是,它差点无法在该版本中发布。最终顺利发布,这后面有一个“两盒烟,三个月”的故事。 去年 10 月 8 日,国庆长假刚刚结束,模式识别中心语音组组长卢鲤与团队负责人陈波到广州与张小龙交流工作。“张小龙希望语音提醒在 4.5 版本上,我说技术不成熟,做这个事情没把握。我说了半个小时,小龙一言不发,最后说‘那你们觉得需要多长?’我咬咬牙说起码得 6 个月。小龙又一言不发,走开了”,卢鲤回忆到,“他回来后,手里拿了 4 包烟,开会的人有 4 个人抽烟,一人一包,包括他自己。这烟我没抽过,我看了烟,又咬咬牙,说‘要不 3 个月’,他听了之后,把他手里那包烟也留给了我。” (微信模式识别中心语音组负责人卢鲤) 从 10 月中旬到 2 月初,除去春节假期,产品上线差不多就是 3 个月(期间进行一次封闭开发),卢鲤顺利完成了任务。烟为什么对卢鲤有这么大的吸引力?答案在这个对话里:
微信 4.5 版本发布的“语音提醒”功能,使用到较复杂的语义识别技术。比如“早上 7 点半起床坐 718 路公交车上班”,需要把“7 点半”理解为时间,把“起床坐 718 路公交上班”理解为事件。这在语音识别中反而是较复杂的。今年 2 月该功能发布后,它对语义的理解能力做得不错,但会有一些错别字,说明语音识别还不太完善。微信 5.0 发布的“语音输入”功能,识别率很准确,甚至在人名、地名、专有名词识别方面给人以惊喜。说明通过一年半时间的努力,模式识别团队在语音识别领域赶上了行业水平。
|
来源:即时通讯网 - 即时通讯开发者社区! |