移动互联网

丁磊的首次“触电”居然是死磕情绪感知

2018/7/27 17:59:00

文|雷宇

来源|智能相对论(aixdlun)

2016年,网络大电影《人工智能:伏羲觉醒》上映,虽然名字带着一点古今结合幻魔烂剧色彩,事实上嘛……先卖个关子。该电影的导演兼制片人是郑小岳。主演是雷鹏宇,姜珮瑶,祁汉,王沁宜,陈海亮,王楚,高晨,都是大家不大熟悉的名字。但是这个电影的男三,陈海亮饰演的BOX大有来路,在电影中,他是大型游戏公司BAT的拥有者,一个技术出身的成功商人。听上去似乎特别熟悉?没错,这是网易影视工作室出品的。

丁老板的精神客串没能拯救这部电影,评分人数不足60人,豆瓣评分3.7,唯二的两个五星评价一个是男主的迷妹一个明显手滑打错了。片中强行尬入了网易云音乐,易付宝等产品,完成了网易产品的宣传的使命与担当。能力所限,影评先到这里。但电影中有一个关于情绪感知的情节很有意思,待智能相对论(aixdlun)分析师雷宇分析一下。

人类哭声中携带的情绪能被机器精准感知吗?

电影中男三有意购买人工智能系统伏羲,但被男主惨拒,于是采用了一些很不耻的手段……伏羲一直在休眠,直到最后男主失声痛哭之后才升级成功被唤醒。乍看没毛病,但很多人应该都有着和弹幕一样的疑问,哭就能使人工智能系统升级吗?我们当然知道人的哭声饱含情绪,但问题是,机器是否能识别哭声中大量的情感信息呢?

???????Ρ????硱????????????????1.png

根据语音本质和表现形式,可大致分为语音,功能性副语音,伴随性副语言。语音就是我们平时正经说人话时讲的话,功能性副语音包括哭声,笑声,叹息声等只存在韵律不存在语义的语音,伴随性副语音则包括基频、音高、音强等特征。后两者常常会用来辅助前者,实现将带有情感的功能性副语言结合传统语音情感特征进行语音情感识别。

在利用哭声识别信息的过程,由于研究基于非特定的人,受地域文化、不同语言、性别、年龄等差异性因素影响很大,因此很难保证系统的鲁棒性。情感主要具有 8个基本的类别,狂喜、警惕、悲痛、惊奇、狂怒、恐惧、接受和憎恨。再根据情绪强度的增强和减弱即为Plutchik模式的三维情绪模式。

???????Ρ????硱????????????????2.png

Plutchik情绪维度

但这对还在发展中的人工智能来说,通过哭声细致而精准的区分情绪还是太困难了,有些情绪之间区别并不大,比如说恐惧和惧怕,在人类都难以区分的前提下,显然不能构筑行之有效的模型。

世界范围内情感识别领域最高级别、最具权威性竞赛——EmotiW情感识别大赛以六种情绪作为标准(愤怒、厌恶、恐惧、快乐、悲伤和惊奇),这也是主流的情感识别常用的标准。在这项比赛中,参赛队伍需要通过设计人工智能模型和算法, 对视频中的人物表情动作和语音语调进行综合识别分析,最后判定人物情感类型。即便是顶尖科研机构尚且需要利用多种模态的交互,而表情动作和声音这些都是非生理信号的识别,在对人进行情感识别的时候,生理信号的识别也显得尤为重要,比如对人类的心率、皮肤阻抗、呼吸等的检测等,一般来说,同时检测的方式越多,其情绪识别的准确率会越高。

因此,现阶段仅仅依靠语音中的哭声,即通过功能性副语音就想要做到精准的情绪感知显然是不可能的。

感知之于人工智能,类似于口红之于女性

智能相对论(aixdlun)分析师雷宇认为,情绪、情感,是人工智能未来的方向。这一论断绝非空穴来风,微软、软银、苹果、IBM等等早就开始在布局情感识别。

比如在2015年,IBM开发了一款基于云计算的人工智能文本分析工具Tone Analyzer,该工具能对电子邮件、博客文章以及手机短信进行感情色彩分析,以确定它的措辞是否如实地表达了你的愤怒、肯定、高兴或者悲伤等感情。

???????Ρ????硱????????????????3.jpg

图为微软2015年推出的一款工具,可通过图片分析情绪特征

智能相对论(aixdlun)分析雷宇认为,情绪感知这门技术的发展的发展得益于两点:

1.AI助理的普及,为情绪感知这门技术获得天然的牵引力。2018年,谷歌I/O 开发者大会今天凌晨在美国举行,其中最为引人瞩目的无疑是谷歌语音助手(Google Assistant),她不仅带来了新的声音和更人性化的发音方式,还支持多轮持续性的对话,让对话变得更加自然。而这其中很重要的一点就是对人情绪的识别,它甚至会用一些功能性副语音,比如Heey、Wow、 Oooh等来填补对话。语音助手已经成为智能手机的标配,最早是苹果的Siri,后来者包括三星的Bixby,华为的小E,小米的小爱等等,但它们并不智能,谷歌的这门新技术在智能手机竞争进一步加剧的时候,谁最先实现情绪感知的突破,谁更有可能杀出一条血路。

2.行业的升级和洗牌,情绪感知彻底取代“看走眼”的传统局面。本月初,编剧汪海林直言不讳的表达了对传统煤老板的怀念,实际上,现在拍电影已经变得越来越科学化,神经科学公司Innerscope通过对大脑某些区域电信号的物理检测,观察电影中那些让观众的大脑高度活跃的高光时刻,最后用以预测该这部电影能否一鸣惊人。实际上这里的情绪感知比我们理解的情绪感知要更简单一些,甚至不用太过于精细的区分情绪,只要实现对峰值的精准把握。而其他行业,但凡涉及到需要对人的情绪进行分析的行业,几乎都可以和这项技术叠加,特别是服务业等第三产业。

人类对外界信息的获取91%是通过视觉的方式,而机器要想更好的感知人类情绪,与人类进行高效的交互,同样需要具备强大的计算机视觉系统,综合面部表情、眼动方式、肢体语言、说话方式甚至抬头等理解我们的情感。

2018年3月21日,Affectiva推出一款AI情绪监控软件(emotional AI software),主要通过面部识别技术及语音追踪技术,确认驾驶员是否存在嗜睡、过于焦虑或易怒的情况,从而判定驾驶员能否专心开车,当判定为不能专心开车时,自动驾驶系统会及时接管汽车,保证行车安全。

值得一提的是,即使实现了感知依然不够,现阶段的研究更多的是让机器对情感表达的各种信号(面部表情、语言、语音等)进行分析并输出结果就可以了,比如计算机识别、计算机语音。距离真正的认知还有很长一段时间,只有真正的认知,才能实现机器与人类无偏差的情感交流。而感知和认知之间这段距离,人类还有很长一段路要走。

脑子是个好东西,为什么不通过观测脑内动态实现精准的情绪识别呢?

在前面,智能相对路(aixdlun)分析师雷宇提到,电影里通过脑电波对人的情绪进行感知,自然有很多人会发出为什么不观测脑子实现更精准的情绪识别呢?毕竟,推测一个人什么样,与其去听他说,看他做,还不如简单粗暴的去看看他的脑子在想什么啊!

原因一句话是,技术难度太大!

以语音情绪识别为例,在对语音情绪中的情绪韵律进行研究时,大部分的研究者只是将大脑大致分成了两个区域——左侧大脑和右侧大脑。当时的研究结果佐证:右侧大脑对副语言(情绪韵律信息)加工有着极其重要的作用,相比于其他的信息,大脑右半球对声调(韵律包括声调和重音)的加工更加专业。随着研究的不断深入研究发现:大脑对情绪韵律的加工并不只是有右侧大脑的参与,大脑左半球也参与了情绪韵律的加工,情绪韵律的加工是大脑两半球共同作用的结果。即使只是单一情绪,比如亢奋,也需要左脑右脑的精准配合。

脑子这么难,预测准确率又不能保证,人类情感这个异常复杂且人类自身都没有完全弄懂,通过脑子来精确检测这一设想只能暂时搁浅。

未来学家雷·库兹韦尔曾立下价值20000美元的赌约,他认为2029年将实现了人类大脑的逆向工程,随后研究者将建立一个可以与人相媲美的人工智能。也就是说,机器在近十年内将实现人类情绪从感知到认知的升级,我们可以拭目以待,看未来怎么来。

智能相对论(微信id:aixdlun):深挖人工智能这口井,评出咸淡,讲出黑白,道出深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。

版权声明
本文仅代表作者观点,不代表艾瑞立场。本文系作者授权艾瑞专栏发表,未经许可,不得转载。

专家介绍

智能相对论(微信id:aixdlun):深挖人工智能这口井,评出咸淡,讲出黑白,道出深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。
  • 合作伙伴

  • 官方微信
    官方微信

    新浪微博
    邮件订阅
    第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。
     关于艾瑞| 业务体系| 加入艾瑞| 服务声明| 信息反馈| 联系我们| 广告赞助| 友情链接

Copyright© 沪公网安备 31010402000581号沪ICP备15021772号-10