上个月,特斯(si)拉(la)首(shou)席执行官马斯(si)克(ke)表示(shi),将(jiang)在(zai)明年推(tui)出“Tesla Bot”人(ren)(ren)(ren)形机器人(ren)(ren)(ren)原型,以从(cong)事(shi)人(ren)(ren)(ren)们不喜欢做(zuo)的(de)危险、重复性或枯燥的(de)工作。该计划一经(jing)发布便引起(qi)了广泛讨(tao)论(lun),国(guo)外(wai)媒体(ti)的(de)焦点(dian),放在(zai)了安全性上。而在(zai)国(guo)内,隐(yin)藏在(zai)人(ren)(ren)(ren)工智能产业链中(zhong)一群人(ren)(ren)(ren)“小人(ren)(ren)(ren)物(wu)”却(que)开始浮出水面,并(bing)被舆论(lun)聚焦。

他们是(shi)AI行业的赋能者,是(shi)人工智(zhi)(zhi)能背后的“人工”。在AI繁荣的背后,有亿兆(zhao)级的数(shu)据信(xin)息(xi),在流水作业中,这些数(shu)据最(zui)终都会传递到名为(wei)“标注(zhu)师们”的电脑前,被他们手动去“智(zhi)(zhi)能化”。

他们扮(ban)演(yan)了“老(lao)师(shi)”的角色(se)——手把手地传授现实世界中(zhong)的表(biao)情和(he)动作(zuo),然后等着AI这位“学(xue)生”成长、离(li)开,或(huo)许(xu)有一天这些“AI学(xue)生”将(jiang)取(qu)代(dai)“老(lao)师(shi)”的位置。如今,随着数据标注行业(ye)迭代(dai)升级,这些数据标注师(shi)或(huo)许(xu)很快就会离(li)开舞台……

入行、扎根

上(shang)海一座创意园(yuan)区(qu)内,主(zhu)管员(yuan)刘梦缘(yuan)(化名)正坐(zuo)在自己的(de)小隔(ge)间(jian)里,等着手下的(de)标(biao)注师们(men)发来(lai)成型(xing)的(de)文档(dang)。

外面(mian)的工位(wei)上坐满了(le)员工,他(ta)们一个个都把脑袋凑近屏幕,脖(bo)子(zi)还向前探着。其中的一位(wei)员工正在(zai)做着“描点标注”,将视频按帧(zhen)截(jie)取并(bing)放(fang)大,细致对脸部特(te)征(zheng)、骨(gu)骼弯曲点进行标注,由于截(jie)取的画(hua)面(mian)像素(su)低,大部分员工总是习惯(guan)性地一边滑动鼠标滚轮一边叹气。

员工们操作的(de)(de)“描点(dian)(dian)标(biao)(biao)(biao)注(zhu)(zhu)(zhu)”是人(ren)脸识别(bie)(bie)前重要(yao)的(de)(de)步骤之一(yi),除去“描点(dian)(dian)标(biao)(biao)(biao)注(zhu)(zhu)(zhu)”,还有分类标(biao)(biao)(biao)注(zhu)(zhu)(zhu)、标(biao)(biao)(biao)框(kuang)标(biao)(biao)(biao)注(zhu)(zhu)(zhu)等。AI不是生(sheng)来就(jiu)能(neng)识别(bie)(bie)人(ren)的(de)(de)眼耳(er)口鼻,它需要(yao)通过标(biao)(biao)(biao)注(zhu)(zhu)(zhu)师绘(hui)制(zhi)的(de)(de)人(ren)脸关键点(dian)(dian),来建立对五官(guan)轮(lun)廓(kuo)的(de)(de)认(ren)知。在此基(ji)础上,AI才(cai)可通过这(zhei)些点(dian)(dian)构成的(de)(de)轮(lun)廓(kuo)特(te)征,完成一(yi)系列识别(bie)(bie)工作。

当你(ni)“刷脸”解(jie)锁手机(ji)、完成支付,当你(ni)进入(ru)火车站(zhan),检(jian)票设备扫(sao)描(miao)面部时,都是在使用(yong)人脸识别(bie)的技术。而助力这项(xiang)技术的,正是数据标(biao)注师(shi)们。

在(zai)(zai)刘梦缘所在(zai)(zai)的公(gong)司,标(biao)注(zhu)师们用(yong)细密、起(qi)伏(fu)的鼠标(biao)点(dian)击声制造出(chu)(chu)成千(qian)上万个关键(jian)点(dian)。这(zhei)(zhei)项工(gong)作很“初级”,却也很艰难,刘梦缘在(zai)(zai)屋里(li)偶尔会出(chu)(chu)来(lai)看一眼,然后(hou)见怪不怪地(di)回到隔间(jian),“我以前也是这(zhei)(zhei)么(me)过来(lai)的,正(zheng)常(chang)。”

她是从2018年(nian)入行的(de),从机械地录(lu)入(数(shu)据清洗)工开(kai)始,几个(ge)月(yue)后才正(zheng)式接触数(shu)据标(biao)注工作(zuo)。她的(de)第(di)一个(ge)任务(wu)是给图像中的(de)人(ren)(ren)物打标(biao)签(qian):年(nian)龄、性(xing)别、人(ren)(ren)种、头发、表(biao)情(qing)等,以供AI学习。而在见识了海(hai)量(liang)人(ren)(ren)物标(biao)签(qian)后,AI就像炼就了火眼金睛(jing),“一眼”认出(chu)人(ren)(ren)的(de)特征(zheng)来。

“当(dang)时税后5千多的工(gong)(gong)资,主要是(shi)门槛不高,其实(shi)说到(dao)底就是(shi)互(hu)联网民(min)工(gong)(gong)的角色吧”。当(dang)时的刘梦(meng)缘大专毕业(ye)后几次应聘(pin)都不顺(shun),灰心丧气(qi)之际她与“标注师”不期而遇,女生特有的细心和韧劲让她一路坚持下来,直(zhi)到(dao)现在。

也(ye)正是在刘(liu)梦缘(yuan)入行(xing)的(de)2018年(nian)(nian),数据(ju)标注公司的(de)风口来临。根(gen)据(ju)前(qian)瞻产业研究(jiu)院统计,2017年(nian)(nian)数据(ju)标注相关融资事件(jian)达(da)到9起,到2021年(nian)(nian)4月,共有18家公司获得融资,投融资事件(jian)39起。

来源(yuan):前(qian)瞻产业研究院

跟(gen)着这一(yi)波潮流发展的是(shi),许多数据(ju)服(fu)务(wu)公司(si)也作为乙方进入(ru)到日益扩大的市场,为百度、阿里等大型(xing)互联(lian)网公司(si),以及(ji)部分AI独(du)角兽企业(ye)提供服(fu)务(wu)。

图片来源:人社部

2020年(nian)4月26日,人(ren)力资源与社会保障部发文正(zheng)式宣(xuan)布,“人(ren)工智能训(xun)练师”正(zheng)式成为新职业,并纳入(ru)国家职业分类目录。预计到2022年(nian),国内外相关(guan)从(cong)业人(ren)员有望达到500万。

行业向上,但“老师”们(men)(men)依旧用密集(ji)、艰辛的劳动辅助AI一步步走向成(cheng)熟。光(guang)鲜的AI科技发(fa)布会在(zai)台前风光(guang)无限(xian),可标注师们(men)(men)的生活(huo)似乎变得(de)有些困难了。

“说是没技术含(han)量,精度(du)要(yao)求在那里,很容易犯错(cuo),”刘梦(meng)缘看着现(xian)在的手下(xia)的员工(gong)说道。每(mei)张(zhang)图片要(yao)标记的点(dian)位繁(fan)杂,稍有偏离就(jiu)会(hui)产生错(cuo)误。一张(zhang)图有错(cuo),会(hui)影响到整个数据包数据,然后就(jiu)是“回炉重造”。

除了精(jing)度,疲倦是(shi)标注师最(zui)大的敌人。“这行干久了之后,我(wo)清楚地知道客户要通过我(wo)们(men)实现(xian)什(shen)么(me)——就(jiu)是(shi)把(ba)人脑当电脑用”,刘(liu)梦缘笑着说道。

大(da)公(gong)司会用(yong)软(ruan)件监(jian)控标(biao)注师的(de)疲劳(lao)程度,也算是一种人性化的(de)体现(xian),“但小公(gong)司本(ben)来(lai)(lai)就是接人家剩(sheng)下来(lai)(lai)的(de)活,时间紧(jin)任(ren)务(wu)急(ji),只能(neng)拼着(zhe)命熬,”正(zheng)是如此,刘梦缘的(de)团(tuan)队里常年备着(zhe)成(cheng)箱的(de)红牛和西洋参含片。

AI快(kuai)速发展的(de)背后(hou),一批批“老师”换血,流动(dong)率(lv)相(xiang)当高。“做文本标注(zhu)的(de)人员,现在越(yue)来(lai)越(yue)少(shao)(shao),图像标注(zhu)的(de)30%的(de)流动(dong)率(lv),语音、视频常(chang)年都是(shi)对半开。而且现在的(de)95后(hou)、00后(hou)愿意做的(de)人少(shao)(shao)了,一般呆过(guo)三个月就(jiu)不愿意继续干了”。

3年时间过去了(le),刘(liu)梦缘(yuan)不(bu)断和老同事告别。但她从枯燥无味(wei)的(de)工作中坚持了(le)下来,她记不(bu)得自(zi)己标注了(le)多少图,只觉得自(zi)己是(shi)踏上了(le)人(ren)工智能的(de)大潮。

对那(nei)些新晋(jin)的(de)员工,刘(liu)梦缘(yuan)也(ye)是如(ru)此描述,“我们是走在(zai)智能时代(dai)前面的(de)一群人(ren)”。

巨头来了

行业(ye)的分水岭出现在2019年初(chu):几大(da)互联网(wang)巨头纷(fen)纷(fen)意识到数据的重要(yao)性,并着手建(jian)立自己的“数据工厂”。

据(ju)(ju)媒体报(bao)道(dao),截至今年3月,百度山西人(ren)工智能数(shu)据(ju)(ju)产业基地中,就拥(yong)有(you)超过3000位标(biao)注(zhu)师(shi)(shi),主要(yao)涉及自动(dong)驾(jia)驶、人(ren)脸识(shi)别等内容(rong)标(biao)注(zhu),其(qi)中86%的员(yuan)工为90后;字节跳(tiao)动(dong)在北京、天津(jin)、济南、武(wu)汉各地,也招(zhao)募了4万名数(shu)据(ju)(ju)标(biao)注(zhu)师(shi)(shi);腾讯更是直接把(ba)平(ping)台放到了线上(shang),让标(biao)注(zhu)师(shi)(shi)变成(cheng)了一种“全(quan)民兼职”,称(cheng)为“众包”。

巨头的(de)(de)加入(ru)一(yi)(yi)方面是为了市场(chang)和成本,另(ling)一(yi)(yi)方面也(ye)是出于数据安全考虑(lv),所(suo)以在(zai)内部(bu)搭建(jian)专门的(de)(de)标注(zhu)(zhu)(zhu)团(tuan)队显然是一(yi)(yi)个好(hao)选择。但是,“模型的(de)(de)训练和数据需(xu)求是周期性的(de)(de),任务不持续,今天有活(huo)、明天没活(huo),人员容易流失,管理(li)成本很高”,刘梦缘(yuan)能理(li)解大厂(chang)摆出“众包”的(de)(de)原因,“我让(rang)手下的(de)(de)人去试过平台(tai)的(de)(de)兼(jian)职标注(zhu)(zhu)(zhu),单(dan)个标注(zhu)(zhu)(zhu)几分钱(qian),一(yi)(yi)个月的(de)(de)收(shou)入(ru)在(zai)2000元左右(you),比起(qi)让(rang)外包来做,省(sheng)了一(yi)(yi)半(ban)还多。”

“大厂出手之后,市场最后拼的就是(shi)成(cheng)本”,那段时间刘梦缘所在公(gong)司业(ye)绩(ji)下滑(hua)了40%,而且做(zuo)出的标注数(shu)据质量也差很多。

图片来源(yuan):Boss直聘

据(ju)懂懂笔记了解,2018-2020年数据(ju)标注(zhu)师(shi)行业平均(jun)薪资为5000-6000元,如果(guo)晋升为项目主(zhu)管或者更高级别的项目总监(jian)后,月薪才能向5位数靠拢。而(er)这一(yi)薪资标准到了2021年, 在一(yi)些求生的外包“小厂”内,不升反降。

图(tu)片来源:职友集

巨头涌入,薪(xin)资缩水的(de)“大趋势”下,能窥探(tan)出标(biao)注师行(xing)业(ye)的(de)“小趋势”:许(xu)多数(shu)据标(biao)注就(jiu)像被人精心(xin)种下的(de)水稻(dao),还(hai)未到秋(qiu)收(shou)季节稻(dao)穗就(jiu)掉进了土里(li)。

年初,刘梦缘单独接(jie)了(le)一个(ge)“私单”,赚了(le)2万元。

那是(shi)一(yi)个大(da)厂“丢(diu)”出来的(de)(de)(de)单(dan)子,做无(wu)人(ren)驾驶的(de)(de)(de)数(shu)据标注(zhu)工作,由于公司手头(tou)上的(de)(de)(de)人(ren)员都扑在另一(yi)个项目上,她拉了(le)之前的(de)(de)(de)一(yi)些老(lao)同事和10个兼职(zhi)学生,干了(le)个“包工头(tou)”的(de)(de)(de)活。

已(yi)经快(kuai)1年没有亲自上阵标注文件的刘梦缘,只(zhi)能(neng)硬着头皮和所有人一样(yang)移着鼠标,头顶、脖子、肘部、手腕、膝盖……都要一个(ge)个(ge)地标出(chu)来。整整一周,一群(qun)人完成了(le)几万个(ge)点位的标注——他(ta)们(men)看似在科技(ji)的潮头,干的却是苦力活。

本以(yi)为这(zhei)单(dan)生意之后,可(ke)以(yi)继(ji)续接小单(dan),可(ke)好景不长。“4月(yue)份开始,很多新团队(dui)出现(xian),压价(jia)特(te)别狠,原来是(shi)标注(zhu)的(de)报(bao)价(jia)按毛(mao)算,现(xian)在报(bao)价(jia)单(dan)上都(dou)出现(xian)几分钱(qian)了”。

数(shu)据标(biao)注行(xing)业有(you)一套分工流程:巨头把任(ren)务交(jiao)给中(zhong)游(you)的数(shu)据标(biao)注公(gong)司(si),再(zai)由中(zhong)游(you)包(bao)给下游(you)的小(xiao)(xiao)公(gong)司(si)、小(xiao)(xiao)作坊,有(you)的小(xiao)(xiao)作坊还会进(jin)一步众包(bao)给“散(san)户”:比如(ru)兼职(zhi)学生(sheng)(sheng)。一单(dan)生(sheng)(sheng)意(yi)几(ji)经转手,就造成(cheng)了行(xing)业众包(bao)中(zhong)介层叠越来越严重,利润所剩无几(ji)。

“AI 肯定是未来的(de)大(da)趋势,但我们这些小(xiao)公司很迷茫,听说很多公司都不干(gan)了(le)。”刘梦(meng)缘(yuan)本想着(zhe)“私(si)单”做得(de)差(cha)不多了(le)之后就(jiu)出(chu)来单干(gan),可这样(yang)的(de)行业情(qing)况下(xia),她能感受到的(de)只有压(ya)力。

困境、挣扎

尽管目前的情况(kuang)不乐观,刘梦(meng)缘依旧相信,数据标注行业最终会大(da)浪(lang)淘沙,而他们(men),是走到最后的那(nei)一批(pi)。

从好的局面来(lai)看,下游(you)市场(chang)陷入(ru)混战的同(tong)时,上游(you)的 AI 市场(chang)从未(wei)停止过(guo)发展,AI正在成为人们进入(ru)这个(ge)社会的“入(ru)口”,这让刘梦缘和其他从业者们感到充(chong)满希望。

但行业也显(xian)露(lu)出(chu)(chu)(chu)严峻的(de)(de)一面,数(shu)据标(biao)(biao)(biao)注在迭代:大(da)模型慢慢替代标(biao)(biao)(biao)注师,一些(xie)门槛更高、学科(ke)更细分(fen)的(de)(de)领域正露(lu)出(chu)(chu)(chu)头角(jiao)。比如,医(yi)疗健康(kang)领域需要(yao)对病理切片(pian)等(deng)进行标(biao)(biao)(biao)注,以腰椎间盘(pan)突出(chu)(chu)(chu)的(de)(de) CT 片(pian)为例,标(biao)(biao)(biao)注员(yuan)必须准确(que)识别并标(biao)(biao)(biao)注出(chu)(chu)(chu)间盘(pan)的(de)(de)轮(lun)廓。不过,很多医(yi)疗专家并没有时(shi)间和(he)精力(li)做数(shu)据标(biao)(biao)(biao)注,而这(zhei)类工(gong)作又是普通的(de)(de)标(biao)(biao)(biao)注师无法(fa)胜任的(de)(de),通常需要(yao)请医(yi)生或医(yi)学院(yuan)的(de)(de)学生来做,结果(guo)就(jiu)是成本(ben)居(ju)高不下,这(zhei)些(xie)专业人员(yuan)的(de)(de)成本(ben)是普通标(biao)(biao)(biao)注员(yuan)的(de)(de)10倍。

像(xiang)刘梦缘之前(qian)那样手(shou)把手(shou)教人(ren)工(gong)智能学习的(de)(de)方(fang)式,被称为“有监(jian)(jian)督”的(de)(de)机(ji)器学习。但当人(ren)工(gong)智能被逐(zhu)渐(jian)成熟,它(ta)自(zi)身(shen)的(de)(de)识(shi)别(bie)能力与(yu)模型拟(ni)合准(zhun)确度(du)将不断提高,进入(ru)人(ren)机(ji)协作模式。直至(zhi)人(ren)工(gong)智能会在(zai)模型的(de)(de)注准(zhun)确度(du)与(yu)效(xiao)率上(shang)完全超(chao)过人(ren)类,此时(shi)它(ta)便(bian)要(yao)离开(kai)人(ren)工(gong)标注,进入(ru)无监(jian)(jian)督机(ji)器学习。

理(li)论上说,每一个(ge)垂直场景(jing)随着技术发展,人(ren)工智能都(dou)有可能进入(ru)无监(jian)督学(xue)(xue)习状态(tai)。AI的核心在于预测(ce),AI的下(xia)一个(ge)变革是(shi)无监(jian)督学(xue)(xue)习、常识学(xue)(xue)习。也就(jiu)是(shi)说,“老师”们(men)正在努力让 AI 不依赖(lai)人(ren)类训(xun)练(lian),自己去观(guan)察世界是(shi)如何运转的,并学(xue)(xue)会预测(ce),最终AI要甩(shuai)掉“老师”。

但刘梦缘(yuan)并没有很强的(de)(de)(de)危(wei)机感:“我(wo)带领我(wo)们(men)的(de)(de)(de)人在做一(yi)件最有意义的(de)(de)(de)事,在将每一(yi)个个体的(de)(de)(de)智慧转化为 AI。我(wo)能(neng)保证,如果(guo)未来 AI 取代人类,他们(men)也会是最后一(yi)批(pi)被(bei)取代的(de)(de)(de)。”

为(wei)什么是最后一批?“因为(wei)总会有一个新的行(xing)业需要引入 AI ,需要我(wo)们(men)(标注师)为(wei)他们(men)来做(zuo)数据(ju)准备。”

刘梦缘一直认(ren)为(wei):“最(zui)大的一块市场是(shi)审(shen)核(he)”。随着(zhe) AI 技术的发展,早年一些基(ji)本的标注工(gong)作正被逐渐被淘汰。以自动驾驶(shi)模型为(wei)例:以前(qian)靠人工(gong)来识别车(che)、行(xing)人,如今则(ze)是(shi)由机(ji)器先标出来,然后(hou)人再去检查标注是(shi)否(fou)正确。

她考虑过自己的(de)职业规划(hua):“非常(chang)想进大(da)厂(chang),可是简历不够漂亮(liang),门槛(jian)都迈不进去”。

互联网大(da)厂(chang)对于数据的(de)重视,最直(zhi)接(jie)的(de)反应就(jiu)是薪资,尤其是管理(li)岗,优厚的(de)薪资福利(li)让很(hen)多人都羡(xian)慕(mu)不已,刘梦缘(yuan)也是其中一员。除此之外,她还考虑过(guo)自己单干(gan)去(qu)开(kai)个(ge)小公司,然后(hou)以被收购的(de)方(fang)式进入大(da)厂(chang)的(de)管理(li)体系。

“不过(guo),那都(dou)是(shi)非常遥(yao)远的未来,还是(shi)抓紧(jin)现(xian)在吧。”如(ru)今(jin),刘梦缘已经升级为公司主管,名片(pian)上(shang)的职(zhi)位(wei)是(shi)数据总(zong)监。她也不再像刚入职(zhi)时那样累了,“每天工作结束,累得不行,还要在内部对比谁今(jin)天完成(cheng)的任务多(duo)。”

当然(ran),角色(se)的转换(huan)之后刘梦缘会(hui)思考(kao)更多(duo),“或许下一个风口明年就来,又或者……”她也有些语塞。

在科技(ji)急速发展的(de)年代(dai),各(ge)类人(ren)工(gong)智能的(de)应用如(ru)雨后春笋一般闪现,随(sui)之(zhi)而来(lai)的(de)是职场(chang)的(de)多变。刘(liu)梦缘现在能依靠的(de),就是自己在“教学”生(sheng)涯中的(de)经(jing)验,至于那些新入(ru)行的(de)标(biao)注师们,他们刚踏上了人(ren)工(gong)智能的(de)列(lie)车,却已(yi)经(jing)驶向一个模(mo)糊的(de)未来(lai)。