互联网

数据标注农民工

2019/1/2 18:19:00

数据标注农民工:你在故宫修文物,我在贵州做标注

 

亨利·福特曾经说,“我雇的明明是两只手怎么却来了一个人。”

 

现在,广义的工业机器人就是能够实现自动化控制、可重复编程的多功能机械手,并具有三个或三个以上可自由编程的运动轴,看上去就是人的上肢的简化组合。

 

这还不够。

 

在智能时代,AI等新技术实际就在帮资本家实现他们原本的梦想……

 

按照经济学通识,即“生产消费再生产”理论,如果一个工业体只有生产而无人消费,其结果就是周期性生产过剩,继而导致经济危机。

 

这种生产过剩不是绝对过剩而是相对过剩,即相对于劳动人民有支付能力的需求和资本价值增值的需要而言的过剩。

 

一般表现是: 商品大量积压,生产锐减,工厂大批倒闭,工人大量失业,信用关系严重破坏,整个社会经济陷入极端混乱和瘫痪之中。

 

马克思在《1857-1858年经济学手稿》认为:资本主义生产的目的不是为了消费,而是为了追求利润的最大化。

 

这便是资本主义的根本矛盾:社会化大生产与生产资料私有制之间的矛盾

 

那么在AI如火如荼的时代,这个矛盾会加剧吗?答案来自贵州。

你在故宫修文物,我在贵州做标注

位于贵州贵安新区的大数据库灾备中心机房内,有着一根特殊的网络虚拟专线,这条专线跨越了北京与贵州之间2200多公里的距离,实现了国家与贵州灾备中心数据的同步传输和异地备份。这里是国务院钦定的大数据中心。

 

资本家们闻着味道赶来,既是政治正确,也是商业理性使然。

 

马云说,30年前你错过广州,20年前你错过杭州,现在不要再错过贵州。


马化腾说,贵州山多水多,空气凉爽,适合放服务器。简单点说就是省电,直白点说是省钱。

再直白点说,贵州的数据支持很便宜,数据标注更便宜。

 

2018年贵州省平均工资5200元,数据标注师仅为4200元。如果是职校招的实习生,2000块就可以打发。他们驱动着光鲜亮丽的无人汽车在北京的五环上被交警开罚单,却很有可能买不起B站的大会员。

 

这是事实,无需反驳。

 

然而尽管他们收入微薄,但他们的老板还嫌他们干的太少。

 


贵州梦动科技有限公司的项目经理胡定祥,觉得自己的生意成本太高,于是又兼任了贵州盛华职业技术学院的老师。这样他就可以把自己的学生贩卖到数据标注工厂里赚他们的血汗钱了。

 

事实上他们就是这么做的。

 


 

500人团队,全职只有十一二个。可以,很强,很互联网。

 

“上课就是上班,老师就是经理。”胡定祥笑着说。福特都不敢这么说。

 

那一刻,他的灵魂如福特附体,眼睛里闪烁着人性的光辉。

 

191415日,当时任CEO的福特拍板决定,公司几千名员工每天工作9小时可以得到5美元,比之前的2.38美元足足高了一倍多,整个商界都为之震惊。

 

一个世纪以后,中国的互联网公司选择在欠发达地区的贵州,用低于当地平均工资数倍的薪水,威逼利诱在校学生替资本家做数据标注。可以,很强,很互联网。

 

利润之下,别无完卵

 

校企合作存在隐患。企业追求利润无可厚非,学校也追求利润就是伤天害理。

 

这样的事情不是没有发生。

 

201310月,央视《新闻周刊》曝光了西安工业大学北方信息工程学院的学生,应学校要求前往富士康代工厂实习。虽然实习期间,有两三千元的工资,但他们需要每日连续工作11小时,有的学生甚至被累到流鼻血。而且学生没有反抗的余地,这是由学校与富士康签订的协议,并且是学校开设的“社会实践课”,而且是有着6个学分的必修课。

 

同年11月,同样是在英国《金融时报》就有报道过。有学生向媒体反映称,超过1000名同学曾在山东烟台的富士康工厂从事基础工作,并表示,该“实习”为学校的必修课。

 

次年825日,一位95后网友“虎诚”在网上发文《富士康实习的生活和工作经验》,提到了自己和大多数实习生一样,为了完成学校的实习任务,被安排到山东烟台富士康实习的生活。

 

文章最后呼吁称:“在富士康工作靠体力赚钱,适合年轻人干,没有文化没有技能,只有体力可以干。我写的是自己在富士康三个月实习的感受,建议学生不要进去,你们还年轻要多学习知识和专业技能,进去就是浪费青春。”

 

那一年,富士康16连跳震惊海内外。尽管如此,每天仍然有数千人在深圳龙华富士康门口排队,寻求一份月薪5000加班14个小时的工作。

 

数据标注员小张说,他感觉自己是流水线工人,这个工厂是富士康。

 

“人工智能就像是一个孩子,标注好的图片就像是孩子的食物,而我们就是制作食物的人,最苦最累的我们做了,成名的只是那些制造孩子的人。”小张底薪和加班费总共3800块一个月,同在贵安新区的富士康,基本工资+加班费+补助是5000块。

以人工智能之形,行鸿海精密之实

 

他的判断没有错。

 

在人工智能灼热与闪亮的背后,数据标注产业,作为做基础的支撑,却显得格外粗粝与拙朴。

 

在极客公园一篇名为《揭秘人工智能风口下的数据标注生意:一批数字富士康的诞生?》的文章中,某自动驾驶创业公司数据标注负责人经常私底下开玩笑说,这就是个「血汗工厂」。

 

他还能开的起玩笑?

 

以更低廉的劳动力成本支撑起聚集在首都的人工智能底层数据需求,是来自河北、河南、山东、山西等周边省份的职业技术学校的学生。

 

通常在北京,一张图片需要付给标注员一毛。但数据标注公司玛达科技公司 CEO 任树亮认为这是一个劳动密集型,一毛钱太贵了。

 

“我们还有按厘算的呢。”任树亮用一个改革开放前的常用数量单位,把光鲜的AI产业一下子拉到了土里。

 

“「负责静态物体检测/场景识别/OCR 文字识别,负责人工智能与自动作业探索」这是百度招聘图像识别与人工智能算法工程师的工作职责描述,而「扎实的数学基础,掌握 C/C++ Python 语言, 掌握 OpenCV,掌握机器学习基本算法……」是对应聘者的要求。”

 

但实际上,这是一份只要会用鼠标就能干的工作。

 

百度经常干这样的事。比如他们的HR会把电话销售包装成“市场顾问”,其实只是个打骚扰电话的。仅此而已。

 

“方言标注这一块,没上过学的老农可能比清华硕士标的更准。”


教无人车学会认路,教自己学会失业

“即使是被替代,数据标注师也将是最后一批被替代的人。”标注公司老板杜霖说。

 

他在说谎。

 

让杜霖工厂里的廉价劳动力失业的方法有很多种:

 

1.深度学习技术突破,可以自行数据标注。

  

2011年,郭台铭郭总裁宣布:三年内,富士康要添置一百万台机器人。2016年富士康深圳员工从40万锐减到10万。

 

今年2月郭台铭宣布,富士康人工智能业务将在 5年内投入21亿。5年前,富士康因为跳楼不断,郭老板忍痛割爱,给员工的基本工资从涨了200块。看起来郭老板更喜欢机器人。

 

数据标注行业会不会像富士康一样用机器替代人工?这要看李彦宏马化腾们想把自己的AI生意做得有多大。做得越大,数据需求量也就越大,人工成本却逐年上升。这意味着一旦人工成本高于替代人工的机器研发成本之后,相信我,商人们是不会要脸的。这是商业理性。

 

2.数据行业持续竞争,标注模型会走向开源。

 

“开源是罪恶的。”

 

某数据公司高层认为,商业竞争才是决定这部分人不会取代的关键因素。

 

每家公司都有自己的数据标注需求,并且他们暂时不会公开自己的模型,就像在互联网之初大家都不会开源自己的代码一样。

 

可能到某个节点大家都公开自己的数据、模型后这部分人才会面对失业的担忧。

 

3.AI泡沫过后,资本追逐新风向

 

人工智能并不是新鲜事物,早在1956年的达特茅斯会议被公认为是人工智能的起源。而50年后当年的会议者们重聚,看着照片中白发苍苍的人工智能开拓者与奠基者,不禁感慨万千。

  

算起来人工智能经历了三次热潮,但热潮退去往往一地鸡毛。

  

现在人们认为深度学习+大规模计算+大数据=人工智能,并对这个公式深信不疑,如同20年前人们对专家系统深信不疑,如同50年前人们对图灵深信不疑。

 

后来人们发现,仅仅在语音识别这个领域,依赖语言学家的专家系统失效了,计算机科学家和数学家通过统计贝叶斯算法建模的方法更容易获得成功。

 

然而在最近几年,学术界发现人工智能不应该是个数学问题,应该是个生物学问题。

 

“既然要学人脑的思维方式,为什么不去研究人脑?”霍金斯在《论智能》中说道。

  

从表中可以看出,如果是基于统计建模的人工智能,那么数据标注这个行业会和整个人工智能产业同生共死,因为数据是AI的石油,人类数据标注师是AI的老师,他教会机器认路,认识猫猫狗狗。

 

但如果建立在生物学基础上的人工智能理论可以突破并且落地,那么数据标注与否并不重要。比如你不用把你旁边同事摁在桌子上在他脸上画29个点才能记住他。一回生二回熟,这是人脑的思考方式。

 

这个时候,数据标注师这个称呼,可能只有在历史文献中才能找得到了。

 

人口红利的本质是低成本剥削。而在中国进入人口红利拐点00后比80后少生了7200万的大背景下,富士康使用机器人或许是无奈之举。但鸿海精密自1974年成立以来,已经在大陆吃了40年人口红利,够本了。

 

只是作为数据富士康一员的数据标注师们,还是烧烧香保佑人工智能可以再火40年吧。

 

怕只怕,我们以后想被人压榨都没有这个机会了。

 

吹牛谁不会,落地看真章

 

今年年初,李开复说2018年是AI泡沫破裂之年.

 

人工智能领域的权威专家、卷积神经网络的发明者、Facebook首席AI科学家Yann LeCun在网络上表达了赞同,并补充评论道:

“(人工智能泡沫将破)确实如此。李开复提到的泡沫就是指有些公司许下了过高的承诺,但是今年要不了多久他们的钱就花完了。”

 

斯坦佛大学人工智慧实验室主任李飞飞说法称,AI虽是个“真货”,但也在许多随意和缺乏严谨性的交流或展示中被强烈地夸大,进而影响政、商、投资者。

 

人工智能火到什么程度?

 

完成C3.8亿元融资的依图科技创始人有过这样的描述:“AlphaGo之后,我们从3月份开始融资,4月份(估值)可以加一亿美元,5月份可以再加一亿美元,6月份可以再加一亿美元上去。我什么都没干就可以这样。”

 

什么都不干,手拥概念估值就不断飙升,这把人工智能的火,咋看上去有些虚呀!俗话说,物极必反,人工智能现在如日中天,总有给人一种不真实的感觉。

 

人工智能虚火的另一种表述,就是人工智能市场泡沫的泛滥。如今的人工智能,就跟20年前创业者们名片前面加个“WWW”,后面加个“.com”,马上就光环笼罩一般。

 

当投资人和科学家意识到了泡沫的存在,产业界的反应非常剧烈。

 

新经济 100 CEO 李志刚演讲中大胆预测:人工智能领域当前存在巨大泡沫,未来两三年,95% 以上的人工智能创业公司要倒闭。

 

李志刚认为人工智能存在泡沫主要有两大原因:

 

一是前提不足。「没有海量大数据,人工智能就是扯淡。」目前真正的大数据仍然被少量巨头和政府职能部门掌握。同时,作为获取大数据前提的「云计算」刚刚起步。「没有云计算,没有大数据,人工智能无从谈起。」

 

二是商业化滞后。谈及人工智能商业化滞后问题,李志刚讲述了一种悲剧模式:不少人工智能公司在产品还没上市时就估值 5 亿美元——招不到专家,只好去美国找谷歌、微软的人——外国人干两三年,带着两三千万人民币的高薪走了——企业垮掉。

 

自去年以来,已有50多家AI公司倒闭,其中不乏融资数亿的明星公司。

 

这是个什么概念?

 

腾讯科技报道,2017年已经有60P2P公司歇业,近4成亏损。人工智能创业公司的倒闭数量都快赶上P2P了,不能不让人担心。

 

“担心又有什么用呢?”

 

做过室内装修的何军,在2017年底投入十万积蓄作为启动成本,在河南周口成立了一个40人团队的数据工作室。他2018年的最大计划,就是“争取接到一手项目”。

 

“利润其实不高”,何军一边抖着腿,一边掰着手指头细细算账,“你看啊,一个拉框平均4分钱,一个员工一天能做大约4500个,一共180块。过关率90%,再除去审核的成本,再给每个标注员每天发110元左右的工资,平均下来工作室每天也就从每个人身上赚30块吧。”何军第一个月亏了本,第二个月勉强持平。

 

其实说老实话,无需同情数据标注这个行业,也不必担心人工智能是否有泡沫。你不必讶异更无须欢喜,在AI面前,我们都是始作俑者。

 

如同正在看这篇文章的你,不知道在微信后台已经被腾讯的AI打了多少个标签,被苹果的“云上贵州”拉了多少个数据标注的红色框框,被数据堂卖了多少条信息了。


 

别想了,真的,人间不值得。

 

/邢书博


版权声明
本文仅代表作者观点,不代表艾瑞立场。本文系作者授权艾瑞专栏发表,未经许可,不得转载。

专家介绍

  • 邢书博

    总访问量:334
    全部文章:9
TMT行业分析师,虎嗅钛媒体界面新闻作者。关注在线教育游戏SNS等领域。和我交流微信:qiangzhuxingshubo
  • 合作伙伴

  • 官方微信
    官方微信

    新浪微博
    邮件订阅
    第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。
     关于艾瑞| 业务体系| 加入艾瑞| 服务声明| 信息反馈| 联系我们| 合作伙伴| 友情链接

Copyright© 沪公网安备 31010402000581号沪ICP备15021772号-10

扫一扫,或长按识别二维码

关注艾瑞网官方微信公众号