移动互联网

知乎大秀AI肌肉:为什么向“阴阳怪气”Say No?

2018/6/25 20:53:00

AI程序“AlphaGo”战胜了人类围棋世界冠军、无人超市出现在街头、汽车逐渐开启了“无人驾驶”新时代……当人工智能红透科技圈半边天之时,国外谷歌、微软、Facebook,国内BAT等大佬们也在积极推动人工智能在商业应用领域的落地。

人工智能持续火爆的2018年,玩家们显然更注重AI在商业场景的落地,毕竟,一切技术发展本质要回归到商业应用。而事实上,每一次技术层面的革命,必将与重大的社会经济变革、教育变革、思想变革、文化变革等同步。所以当中文互联网知名知识分享平台知乎也亮出AI肌肉时,我们看到了AI不一样的应用领域。

AI算法除了发挥千篇一律的商业价值、业务价值外,知乎则提供了一个AI可带来人文价值的样本案例。

被忽略的“阴阳怪气”难题、被低估的知乎AI实力

知乎近日在一次活动展上分享了其算法机器人“瓦力”着力挑战识别阴阳怪气类内容方面的探索。

《黑客与画家》作者、硅谷知名投资人保罗·格雷厄姆曾在一篇《how to disagree》的文章中将反对观点的表现形式,划分成了七个层级,disagreement hierarchy(简称DH),不同的DH值,代表着反驳的姿势水平的高低,有人由此绘制了一张“反驳金字塔”图示。如下:

根据知乎团队的介绍,所谓阴阳怪气的评论通常对应的是DH3和DH4。类似的语句示例如:“阿斗啊!没想到能在这遇到你!”、“你开心就好、请开始你的表演”、“我觉得你挺惨,虽然长这么大了,还真应该回小学改造”……“阴阳怪气”类反讽内容,是一个困扰人工智能情感分析领域的前沿问题。原因在于反讽是用一种完全正面的词语,去表达负面的意思,作为一个很高级的修辞手法,机器人很难明白。就像《生活大爆炸》里的谢尔顿,作为一个物理学家,智商排到全人类前1%,也经常听不懂别人的讽刺。

常规的AI算法,更多的只是更多的将互联网上的废话与理智评论区分开来,即便是知名社交产品Instagram其实也是在用AI做过滤一切假粉丝与恶意评论的简单工作。到了更高阶、更细化的情感分析领域,很多产品的AI算法往往无能无力。

事实上,机器算法和语言文学性是一对天生不可调和的矛盾,机器本身侧重效率与程序化,但是语言本身充满情感,机器无法准确识别人性化语法、语义等也在情理之中。这点在我们日常经常接触到的在线翻译工具最能佐证——不顾语法和上下文语境地翻译语句,让机器翻译更多时候只是扮演“词典”而非“翻译”的角色。

如果逻辑代表机器IQ的话,那么情感代表EQ。从逻辑到情感,显然将是人工智能未来前进的方向。这也从侧面论证了知乎在AI算法,尤其是自然语言处理(NLP)方面的成熟度。根据知乎方面的介绍,AI的识别处理准确率目前在部分场景中最高可达到 99.13%。而除却“阴阳怪气”类反讽内容,“瓦力”还可以处理答非所问和歧视、贴标签、辱骂等这些低质内容和无关内容对用户造成的干扰。

能在机器情感分析领域小有成绩,知乎集纳了两大优势:第一,众所周知,AI的基础是大数据。AI算法不断升级必然离不开将个体与后台海量的数据库匹配,从而得出答案。知乎由于用户构成相对“高知”,首先积累了一个非常高质量的中文语料库,不仅拥有大量优质的提问和回答的文本。同时,用户在知乎上的行为本身也是非常重要的数据;再者,经过七年多运营,知乎团队已培养了丰富的社区管理经验,可以理解不同用户的不同诉求,而后根据这些不同诉求去让规范适配复杂多变的各种场景。

事实上,尽管情感计算已越来越被更多的人工智能团队所重视,但要让机器人实现“读心术”却并非易事。不可置否,当我们追溯情感发生的本源时,很多时候还并不能完全清楚它的发生机制,就像一句经典的“呵呵”,即便能够感受到情绪,但它背后的发生机制是什么显然未曾得知。这意味着,情感分析的日臻成熟还需要综合认知学、心理学等领域进行探索。

秀肌肉背后:彰显的不仅是力量,更是格局

同样是进击AI,巨头布局AI领域的姿势比较有前瞻性:无人驾驶、智能贴身助理等等。

相较之下,知乎AI选择了与自身业务相吻合的切入方向更多了几分实际与现实的思忖。

而同样是将AI作为内容平台的新引擎。大多平台都在研究用户喜好,推荐内容。大部分流行的信息流产品用AI算法导向内容,通过用户关注、点赞次数等数据,把内容(饲料)Push(喂)给用户。但这种机制,就像给人嘴中塞一个“奶嘴”以发泄性娱乐杀用户时间,随之往往会有一些低俗的内容被迅速捧红。

知乎平台对AI的运用更类似于做减法,关注内容生产的本身,将算法大规模应用于社区氛围的管理,以生产出有价值和对用户有帮助的内容。

事实上,一个网络问答社区将战略锁定在了AI,也是顺应时势的发展策略。

2013年知乎开放注册后用户量开始每年成倍增长,最新的数据显示,截至5月知乎已拥有 1.6 亿注册用户,年增长达到 95.12%。而规模增长的同事也带来了问题多样性的指数级增长,比如走向另一个弊端——大众化内容的绝对数量必定会出现井喷,这意味着内容质量的不可控。每个用户都希望有参与感,都有意愿分享自己的见解,但实际上,并非所有UGC内容都是有价值的,从回答区到评论区,都有可能出现灌水内容。

而知乎的使命一直是生产、传播、分享有用、有价值的信息,帮助人们更好地认识世界。当高端调性遇到大众用户的涌入,问题的出现与知乎的使命显然出现了裂痕。

原有的产品机制开始“失效”,对排序、推荐算法都提出了更高的需求,这就是知乎引入AI技术的必要性,甄别不同类别的低质行为(如答非所问、软文)和不友善行为(阴阳怪气、贴标签),其实意味着知乎要在高用户高活跃和专业友善之间保持天平的平衡。

而站在更深远的层面上看,AI对于知乎的深远意义:不止是作为其中新引擎构建良性讨论空间,当整个知识生产的方式、节奏和效率在AI助力下发生质的变化之时,知乎试图下的一盘更大棋局逐渐浮出水面。

近来每次知乎的技术负责人公开谈及人工智能技术,“智能社区”都是一个绕不开的词汇,也是知乎正投入重要精力和资源布局的大方向。

对于“智能社区”,知乎合伙人、高级副总裁李大海曾如是定义,“每个人来到知乎,都能快速看到他感兴趣的人和内容,他的疑问可以被极速送达到有意愿和能力回答的人,他也会快速遇到让他拍案的好问题,分享只有他最懂的信息,收获最令他满足和愉悦的认同,与他希望遇到的人产生有价值的交流、讨论,甚至争执”。

“智能社区”的打造,看似又是一次知乎借力AI的升维战,试图以更高的效率,创造思维的连接。然而AI也许并非最关键的,其表壳下依然掩藏了知乎做专业化和有价值内容生产的深层目标。

在国内内容社交平台的巨头较量上,不难看到各方的差异化路数:微博选择了以热搜排行、明星爆照、集体段子等内容支撑的娱乐化路线;今日头条则打出整合化的进击方式:从内容资讯平台,短视频,再到广告代理,文档协作等,布下了一个全家桶式的矩阵;由于用户构成相对“高知”,知乎一直在走一条相对艰难的专业化之路。但这种“良心”运营背后,同样是要以用户数和活跃度稳步上升,盘子越做越大为基础的。显然,借力AI算法将是可依赖的实现途径。

从这个意义上讲,知乎“智能社区”也是其依靠AI为自己解决噪音效应,实现专业化知识普惠的同时,也再收割一轮用户、增加用户黏性的杀手锏。

少即多!信息过滤与净化的战争才刚开始

在一个互联网产业发展得异常繁盛的时代,这个时代的最大浩劫莫过于信息过剩。

信息已充斥着人类生活的方方面面,无论是吃穿住行抑或寻古问今。但,繁多的信息却也使得原本简单的互联网生活变得错综复杂。在这样一个愈加嘈杂的互联网世界,人们总是面临着决策困境,不是源于信息不足,而恰恰正是归因于信息过于充裕。

就像乔布斯想要简约,必须毫不犹豫地砍掉该死的物理按键一样。每个人的生活方式依然应该遵循着类似的经营法则——砍掉不必要的枝枝丫丫,少就是多。应对信息爆炸的时代,同样如此。

过去的几年时间里,包括印刷媒介、图书分类法、各种推荐系统、维基百科、社交媒体以及搜索引擎在内,都是在用过滤的方式解决所谓的“信息过剩”。然而互联网世界从来不存在饱和的市场及技术,理应存在一种更理想的过滤方式,可以进一步给用户更好的体验。

毫无疑问,基于人工智能的出现,通过技术手段从逻辑中分离无意义的信息将成趋势。而知乎对于低质、不友善内容的筛选和处理,也只不过是折射了其中一角,是知乎借力AI手段打响的又一次信息净化进阶战。随着NLP技术的不断成熟,外界或许将从知乎致力打造的“智能社区”中收获到更多的惊喜。

当然,知乎此轮掀起的信息净化之战,也放大了知乎平台化的正向网络效应。以及,正如开篇所提及的,知乎大秀AI肌肉的表象下,让外界看到人工智能赋能人文领域的一个细微切入点。

——————————

王小琉(个人微信wangxiaoliu203406),微信公号“王小琉”。科技专栏作者,前中央媒体人。

智能硬件体验者;IT&科技领域观察者、记录者、评论者


版权声明
本文仅代表作者观点,不代表艾瑞立场。本文系作者授权艾瑞专栏发表,未经许可,不得转载。

专家介绍

  • 王小琉

    总访问量:410835
    全部文章:179
王小琉(个人微信号wangxiaoliu203406 )互联网从业者、前媒体人,关注IT、可穿戴、智能硬件。文章多见于钛媒体、雷锋网、创业邦、速途网、凤凰科技、人民网、中青网等各大媒体。
  • 合作伙伴

  • 官方微信
    官方微信

    新浪微博
    邮件订阅
    第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。
     关于艾瑞| 业务体系| 加入艾瑞| 服务声明| 信息反馈| 联系我们| 广告赞助| 友情链接

Copyright© 沪公网安备 31010402000581号沪ICP备15057083号-1