独家采访微信技术团队:他们改变了微信的涵义

admin 9 0

优惠价:¥

原价:¥

我们经常听闻对张小龙在微信设计方面的探讨,却鲜少关注到支撑微信的幕后技术团队。在微信的早期版本里,其技术层面并无显著特色,主要聚焦于信息交流功能。然而,自4.3版本起,语音识别和扫一扫等新功能的加入,以及新技术与传感器的融合,正在对微信进行全新的定义。

在昨日举行的“微信·公众”合作伙伴会议上,微信正式推出了语音开放平台,标志着其正式跨出微信的界限,开始与科大讯飞、云知声等语音技术企业展开竞争。此外,在此次会议上,微信还通过演示控制冰箱、制作美图、操控电视等设备,展现了其在物联网领域扮演核心角色的巨大潜力。

微信的各个技术团队均隶属于模式识别中心团队之下,在爱范儿之前进行的独家对话中,对该团队的工作范围及其在微信版本更新过程中的作用进行了深入解析。在那次访谈中,我们亦获得了众多关于技术层面的资讯,现借“微信·公众”合作伙伴大会的召开之机,将这些信息公之于众。

模式识别中心在应用层面主要分为语音识别和扫码识别两大模块,微信团队认为这两者相当于人体功能的延伸,战略价值显著,因此必须拥有自主的核心技术。

语音是站在了更高的起点上

微信语音识别技术初露锋芒,其领军人物为卢鲤博士,毕业于中国科学院,专注于语音识别领域的研究。自2011年苹果公司推出Siri以来,语音技术受到了广泛关注,腾讯亦然。同年年底,腾讯在北京研究院启动了语音识别的科研项目,卢鲤博士加入腾讯并担任项目负责人,率领团队三人全力攻克技术难关。

实际上,在技术层面上,尽管科大讯飞作为老牌企业已经积累了十年的经验,但鉴于相关行业的学术论文在技术研究中取得了显著进展,知识储备也更加丰富,卢鲤可谓是站在了一个更高的起点,其速度甚至可以超越科大讯飞。

梁家恩,云知声的创始人,曾言语音识别技术对于懂得它的人来说,并非难事,而是相对简单。卢鲤与梁家恩彼此相识,两人均毕业于中科院,而百度和搜狗的语音部门负责人,同样出自同一学术背景。

当然,投身于技术攻关的艰辛,往往鲜为人知。语音识别技术的研发历程,从最初的基础阶段,逐步发展到可用,再到最终变得实用,这期间经历了一段漫长的时间。卢鲤将每半年设定为一个里程碑,从研发启动至微信5.0版本发布,共跨越了三个阶段,每个阶段都实现了性能的40%提升,然而,直至最后一个半年,语音识别技术才真正实现了质的飞跃。

卢鲤比喻说,这就如同有人吃了九张饼仍旧觉得饿,而吃下第十张饼后才觉得饱了。

在这段时间里,他们经历了两次封闭式开发过程,并且得到了张小龙的耐心指导。据悉,产品一经上线,用户数量的增长轨迹良好,且用户的使用频率相当高。

微信5.0版本的语音转文字功能让众多用户感受到了其出色的性能,毫不逊色于科大讯飞的产品。尽管腾讯在语音识别领域的发展起步较晚(不足两年时间),但其在实际应用方面已经取得了显著的领先地位。

以自然的方式融入产品

Siri一经推出便大获成功,引领了市场潮流,然而最终却成了众人戏谑的对象,被视为不完善的产物。至于语音在微信中的呈现方式,如何避免过于直白,这既是对技术的挑战,也是对产品实力的考验。

卢鲤持观点,语音是否构成入口并非关键,他更关注的焦点在于语音识别技术能够实现的功能。这好比从一地前往另一地,关键在于能否抵达目的地,而非途中遭遇何种经历。

微信平台上的语音功能呈现了三种主要形态:通讯录中的语音搜索、闹钟的语音提醒以及语音转写文字服务。自微信4.3版本至5.0版本,语音功能的应用逐渐渗透至更多场景,然而其应用范围亦受到严格控制,仅限于特定的功能之中。微信团队认为,若放宽语音功能的适用范围,则可能陷入仅具表面效果而缺乏实质内容的困境。

Siri 拥有语音识别、语义解析以及搜索等功能,构建了一个完整的系统,许多语音应用程序亦然。然而,Siri 等类似产品似乎在告诉用户他们能够完成任何任务,但在技术尚未成熟之际,这类产品往往显得无用。微信则采取了截然不同的策略,它旨在让用户明确知晓自己能够执行的操作范围,避免激发不必要的期望。而且语音与通讯工具的结合,天然更加默契,卢鲤觉得:

“通讯录语音搜索,这在微信里是多么的自然。”

微信公众合作伙伴大会的举办标志着微信语音功能实现了平台化,同时也在垂直领域体验上得到了强化,这一切都为微信的商业化发展创造了有利条件。在未来的研发中,他们的主要任务是进一步提高识别的准确性,优化技术细节,并力争在性能上与人类大脑相媲美。

扫一扫的新技术有很多

IMG_1077

微信扫一扫负责人刘海龙

刘海龙作为扫一扫功能的负责人曾表示,该功能具备识别图像、文字、人脸、物品以及进行物体检索的能力,甚至涵盖了增强现实技术。然而,目前微信仅推出了文字和图像识别功能,这一现状是由多种因素共同作用的结果。需特别指出的是,微信的扫一扫功能通过视频形式进行操作,数据传输是实时的,且无需依赖本地资源。尽管这一功能源自之前推出的App搜搜慧眼,但搜搜慧眼在操作上则是先拍照后上传进行识别。

自动化的实时监测简化了用户操作流程,好比通过摇晃手机搜索歌曲,歌曲播放位置即刻呈现。这一过程从上传至识别再到实时识别,并非简单的技术挪用,它对流量管理、处理速度和云数据库的构建提出了挑战。采取这种方式,不仅优化了用户的使用体验,还减轻了前端负担,将繁重任务交由后端处理,从而让微信更加轻便高效。

微信在“扫一扫”功能上,已经积累了众多前沿技术,诸如名片识读、人脸识别、实景捕捉、物品搜索以及增强现实等。在当前的街景扫描应用中,微信主要依据用户的地理位置信息而非图像进行匹配。然而,刘海龙指出,实现实景扫描是可行的,但该功能需要庞大的流量支持以及高速的网络传输,现阶段尚不适宜推出。4G技术的推广将为众多新兴应用带来发展机遇,而目前众多项目仍在努力克服流量限制。

为何在“扫一扫”功能中设置了五个选项,为何二维码和条形码没有合并为一个类别?这其实也反映了微信在设计产品时的深思熟虑。刘海龙指出,五个按钮的设计能够让用户明确了解可以执行的操作,并且也向用户传达了操作范围的限制。理想的“扫一扫”功能应当是在用户需要时显现,而在不需要时则保持隐匿。

未来,一旦流量障碍得以克服,观看电影海报时,不再仅仅是链接到影评平台,观众甚至可以直接从海报中走出,触发预告片的自动播放。此外,诸如物品搜索、商品扫描等之前在PC端无法实现的功能,也将成为可能。

摄像头将成为人类视觉的延伸,其未来使命在于连接现实与虚拟世界。鉴于其在技术领域中的关键作用,微信的“扫一扫”功能将迅速得到增强。

可以确认,众多功能正逐一接受测试,其上线与否取决于成熟度和用户需求。听闻,微信在每次版本更新前会精心打造数十个版本,并从中精选出最优者进行发布。更有甚者,他们还会专门为100万测试用户打造一款含有新功能的微信版本,以研究其使用情况。语音转文字功能便是通过这种方式成功测试通过的。

微信频繁的版本更新并未使他们感到工作过于劳累,这主要得益于前沿研究中的算法支持,单纯的苦思冥想是无法取得成果的,而是需要在闲暇时刻的灵感迸发。一旦思路清晰,工作便能够迅速推进。然而,由于微信的存在,他们几乎全天候保持在线,可以随时进行工作沟通。

在采访过程中,他们频繁强调,正是得益于微信这一平台,他们的技术得以拥有如此广阔的应用天地。微信紧密贴近用户需求,通过对摄像头、麦克风等传感器的深度开发,已经极大地丰富了微信的内涵。如今,微信已不再仅仅是一个通讯工具,它已成为个人与企业的重要服务助手。

题图为微信语音团队负责人卢鲤

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~