互联网

百度输入法AI探索版:人工智能时代工具应用转型启示录

2019/1/16 22:21:00

2003年5月,《哈佛商业评论》上刊载了尼古拉斯·卡尔那篇题为《IT Doesn’t Matter》(IT不再重要)的文章。

这本文章与其说是《IT不再重要》,不如说是《互联网不再重要》,因为其实尼古拉斯·卡尔在这本书中表达的主题,人工智能、云计算、大数据将会改变我们的时代。

这个标题拿来形容当下的中国互联网可能有很大相通之处。移动时代正在整体向AI时代过渡。移动时代的产品都要纷纷迎接新格局,语音也是如此。

在2018年10月的中国计算语言学大会上,语音识别科学家黄学东博士提到,“语音和语言之进化对人工智能的重要意义毫不亚于语音和语言对人类进化的决定性作用”。百度输入法在1月15日发布会展示的新技术同样呈现了这个趋势。

可以说,百度输入法正是目前的业内标杆。这也是第一家真正思考AI时代人机交互的输入法产品。

智能语音的进化甚至正在把人机交互带入新的阶段。不仅仅有问有答、包含上下语义逻辑,人工智能硬件能够更多地融合各种环境信息,作出不同决策或推荐。

百度系产品在过去几年的进化过程中,逐渐展现出了新的人机交互逻辑。

交互的进化

工具型产品在不同时代、不同需求、不同场景往往面临着转型考验。搜索、输入法这些从PC时代走到移动时代的产品,到了AI时代再一次发生进化。

搜索这样的产品就在从过去的搜索引擎,变成“搜索+信息流”的双引擎产品。像百度APP就在融入AI,把过去搜索引擎时代的人找信息,变成信息、服务找人。既能让用户找到信息,也能让信息找到用户,重构了新型信息服务体验。

输入法同样如此。输入法本质上是人类和机器的交互方式。我们真正去追根溯源就会发现,PC时代,输入法要通过键鼠让我们和机器交互。随着移动时代的来临,触摸屏又取代键鼠,成了输入法新的承载。

细细数来,键鼠这种交互方式存在至今不过百年,而触摸屏这种交互方式严格算来也仅仅只有不到20年。实际上,语音本来就是人诞生以来最天然的交互方式。未来输入法通过语音的方式获取服务,甚至在搜索、娱乐、购物等众多场景出现,也毫不为奇。

早在微软Build2016开发者大会上,微软CEO纳德拉就提出了“Conversations as a Platform”,也就是“对话即平台”的人工智能发展方向。

这个概念在后来也被成为是“对话式人工智能”。

所谓“对话式人工智能”指的是,对话本身就是一个平台,各种知识、信息与服务都运行在“对话”其上,可以形成生态环境的基础平台。人和人工智能之间的对话,即是解决各种问题的一种路径和方式。

事实上,百度输入法正在朝这个方向努力——用AI改变人和世界的交互方式,让人们随时随地与世界互动,获取生活服务。

技术的跃进

产品进化终究需要长期祭奠技术,并在技术积淀过程中厚积薄发,最终在产品层面体现出来。

这次百度输入法进化的秘密在于“流式多级的截断Attention模型”(注意力模型),还在业界第一次创新性的提出了SMLAT技术。这是国际上首次超越了整句的注意力模型。这也是国际上首次实现在线语音大规模使用注意力模型。

我们先解释“流式多级的截断Attention模型”这个问题。

要知道,过去传统的Attention模型都是基于整句的,整句Attention技术是在语音都上传到服务器后,才能开始声学打分计算和解码,会引入较大的用户等待时间,没法做到在线语音交互的大规模实时服务,达不到上线标准。

百度在使用“流式多级的截断Attention模型”之后,主要技术优势在三点。

1、基于CTC的尖峰信息对语音流进行截断,然后再每一截断的语音小段上进行当前建模单元的注意力建模;

2、把全局的Attention的整句识别变成了局部的Attention的流式识别,并且引入多层的Attention,实现特征层层递进的更精准的特征选择;

3、语音识别的识别率超越传统的全局Attention建模,同时计算速度和传统CTC技术持平,实现全CPU流量的大规模线上服务。

另外在在离线语音识别领域,百度输入法还在持续优化Deep Peak 2系统,让离线语音输入相对准确率再次提升。 这些内容听起来很专业,我们通俗解释的话就是,这使得语音的相对准确率提高了,而且用户可以说得更自由了。

不管是流式多级的截断Attention模型以及优化Deep Peak 2系统。这些技术进展在逗未来在技术转化和产品落地上产生影响。

1、最直接的影响是,智能语音更准了,还能离线语音输入。

未来用户不管是在输入法、搜索引擎说出自己的语音,都会更准确,甚至可以中英文方言混输。即使处于地铁、电梯、隧道或人流密集等离线场景中,依然可以借助百度输入法进行精准的语音输入。

过去用户往往是语音输错一个字就会花10秒钟来修改,而且由于方言、口语、中英文混杂的语言习惯,语音输入法是没办法适应这样相对复杂的熟人环境的。这种经历让用户很难建立长时间使用语音输入法的习惯。所以虽然各家输入法都说自己有97%以上的准确率,但实际情况是,愿意使用语音输入法的人寥寥无几。

不过,无论是中英文夹杂,还是普通话家乡话来回切换,百度输入法都能准确识别,是目前唯一实现了高精度中英文混合语音输入、方言免切换语音输入的输入法产品。直接影响就是,用户更愿意用语音输入法了,用户习惯会在技术提高的过程中一点一点普及。

2、AI能真正理解你的语音指令的含义。

所以你可以在输入法中调用指令,发表情斗图、发祝福语、发弹幕、发文件、OCR等等。满足与输入相关的周边需求,实现全语音交互。

百度高级副总裁王海峰甚至认为,输入法本质上是一款人机交互的工具,AI时代正在到来,人机交互的形态也将随之革新。未来,百度输入法将不仅基于手机端,还将致力于连通包括智能家居、车联网等多种终端场景,集多种输入方式为一体,帮助用户在各种场景下高效、自如地传递信息。

3、在一些特殊场景实现更复杂的、具有逻辑层级的任务。

语音输入法过去的使用场景是相对狭窄的,在一些逻辑复杂、场景复杂的环境中,往往很难胜任。

2017年年末,我在和一些智能音箱交互工程师探讨的时候,他们提到语音交互因为缺乏屏幕显示,层级逻辑很难展开,点外卖不太现实。但当语音理解力更强甚至能和人类对话的时候,层级逻辑自然可以展开,点外卖甚至更复杂的操作都能实现。

当语音调用的信息本身是具备可视性、划分层级而且直观易懂甚至缩短大量信息环节的时候。它本质上就是一个更为合理的交互方式。

“流式多级的截断Attention模型”未来如果能够进一步提高对语音的理解能力,输入法或许能像人一样聪明。未来的语音不会像Siri一样愚蠢,只能被人们调戏,随便几句话就会陷入逻辑矛盾,就是因为云端可以理解的语音的颗粒度足够细,速度也足够快。

在未来,智能语音甚至可以理解人们每一句话、每一个情绪的意义,让两人产生真正意义上的“灵魂对话”。

工具的转型

整个行业都正在从移动时代向AI时代过渡,移动时代产品未来破局真的全靠AI。

甚至已经有人提到,AI时代的人机交互应该忘掉机器,因为万物皆界面。是的,AI赋能下的人机交互,将极大弱化人机交互中机器的概念。

你所接触的一切物体都可能是一个隐藏的交互界面,你的动作状态、情绪以及环境中发生的事件,以伴随的各种变化属性为桥梁,时时刻刻都在被分析被推理,最终的结果将反映到真实的物理环境中,从而更自然地辅助你的日常生活。

在这一过程中,我们之前无比依赖的手机和电脑,可能已经退居二线,成为真正的计算工具,不再和我们直接互动了。

企业从移动向AI时代转型过程中,在产品层面要想的问题大约就是三点:

1、如何把AI融入到移动时代的产品之中,和现有功能产生更自然的嵌入;

2、如何形成AI时代的人机交互,让移动时代的产品在AI交互中形成合理的架构;

3、如何把移动时代的产品放置在AI的技术生态中,继续发挥作用;

我们甚至可以大胆预测,未来所有的工具型产品,都离不开智能语音输入法,因为以语音为核心的输入法,就是重构人机交互的最有效手段。因此百度高级副总裁王海峰提到:

作为百度AI能力应用落地的重要产品之一,百度输入法正在通过创新拓展大家的想象力边界。这款AI输入法,不仅是一款满足用户当下需求的产品,也是为正在到来的AI时代所准备的。百度输入法将扮演好沟通桥梁的重要角色,让人机交互进入一个全新的阶段。

语音交互方式,甚至比键鼠、触摸屏有更大的信息量。刘慈欣在《乡村教师》的这段话很形象地点名了未来语音交互的信息量:

你是想告诉我们,一种没有记忆遗传,相互间用声波进行信息交流,并且是以令人难以置信的每秒1至10比特的速率进行交流的物种,能创造出5B级文明?!而且这种文明是在没有任何外部高级文明培植的情况下自行进化的?!

我们甚至可以这样预测,走过了键盘、鼠标、触摸屏等一系列交互手段,在这100年的弯路之后,智能语音为代表的对话式人工智能将让人类返璞归真。

----------------------------------------------

作者:深几度,独立撰稿人。微信号852405518,公众号“深几度”,欢迎署名转载。



版权声明
本文仅代表作者观点,不代表艾瑞立场。本文系作者授权艾瑞专栏发表,未经许可,不得转载。
  • 合作伙伴

  • 官方微信
    官方微信

    新浪微博
    邮件订阅
    第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。
     关于艾瑞| 业务体系| 加入艾瑞| 服务声明| 信息反馈| 联系我们| 广告赞助| 友情链接

Copyright© 沪公网安备 31010402000581号沪ICP备15021772号-10