互联网

陈根:人工智能“飙脏话”,研究人员正纠偏

2022/2/28 10:29:00
/陈根

现在,人工智能(AI)不仅能够与人对话,甚至还能与“飙脏话”。
AAAI 2022收录的一篇新研究发现,在7013个儿童视频中,接近40%的节目出现了少儿不宜或脏话等词汇。甚至在一个113集的儿童机器人学习栏目中,AI就“爆粗”了103次,平均接近一集一次
具体来看,研究人员一共从YouTube上选出了24个儿童频道,分别记录了这些频道的播放量和订阅量。这些筛选出来的视频播放量基本都达到了百万级,订阅人数也同样不少。随后,研究人员分别尝试了GoogleAWS(亚马逊网页服务)的字幕生成效果。
结果令人吃惊,在7013个视频中,GoogleAI出现错误字幕的次数达到2768次,接近40%。亚马逊的AI字幕错误率还要更高,达到了3672次,超过52%
实际上,人工智能“飙脏话”已经不是第一次被发现了,此前,佐治亚理工学院和华盛顿大学的研究人员曾发现,AI也继承了人类对脏话的喜爱。其中,研究人员开发了一个名叫ToxiChat的数据集,其中包含了2000条从Reddit上选取的对话。 
随后OpenAIGPT-3和微软的DialoGPT被派去挨个回复这些对话。由于数据量十分的庞大,于是研究人员在亚马逊Mechanical Turk上招募了一群“人工智能”来为人工智能的回复进行标注。 

如果回复使用的语言非常地粗鲁甚至谩骂,就会被标记为冒犯;如果没有,则是安全。此外,对于之前的评论,回复的立场也被标记为同意不同意中立 分析显示,42% 的用户回复赞同有侵略性的评论,而只有13%的用户同意安全性评论。
对于人工智能“飙脏话”这件事,研究人员提出了一个新的数据集,利用近音字词来构建禁忌词的“替换”备选。比如,对于crap这一可能出现的“脏话,研究人员给它设置了crabcraft等读音相似的字词,便于AI在搞错时进行替换。
具体来说,研究人员在BERTXLMXLNetNLP模型上,针对“完形填空”任务进行了重新训练,也就是用“MASK”遮住部分单词,让AI来填写对应的内容。结果显示,在语序正常、前后文案有逻辑的视频中,AI替换的准确率更高。
显然,在开发人工智能的过程中,人工智能也不得不面对一些人类可能出现的问题,而研究则要对于这些存在的问题进行纠偏。从人工智能“飙脏话”来说,想要纠正人工智能这一“陋习”,可能还需要不少时间。
 


版权声明
本文仅代表作者观点,不代表艾瑞立场。本文系作者授权艾瑞专栏发表,未经许可,不得转载。
  • 合作伙伴

  • 官方微信
    官方微信

    新浪微博
    邮件订阅
    第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。
     关于艾瑞| 业务体系| 加入艾瑞| 服务声明| 信息反馈| 联系我们| 合作伙伴| 友情链接

Copyright© 沪公网安备 31010402000581号沪ICP备15021772号-10

扫一扫,或长按识别二维码

关注艾瑞网官方微信公众号