黄土高原的县城里,一群全职宝妈成了AI训练师
在一块电脑屏幕前,她想象2000公里外的大自然。“将来有没有机会我也去那看看?”
做了数据标注员后,她说自己学到了不少东西。“我做过一次旅游相关的业务,标注景区的不同级别、类型等,对这种不太懂的领域,我们经常要去查关键词到底是什么意思。我搜索过西双版纳、玉龙雪山的景区资料,很美。”在一块电脑屏幕前,她想象2000公里外的大自然。“将来有没有机会我也去那看看?”
记者 | 李晓洁
电脑屏幕上在播放一则短视频,球星内马尔穿着黄色的巴西队服正带球过人。视频右侧是一些选择题,内马尔、梅西、世界杯等词汇下方有几个选项:强相关、弱相关、不相关。屏幕前的员工戴着耳机,判断视频内容与词汇的相关度:出现了内马尔,选强相关;没出现梅西,选不相关;至于什么是弱相关,有时需要员工自己判断。选中相关度后提交到系统,这就算是完成了一条标注工作。速度快的员工,一天能标注1000多条类似的视频。
在山西省临汾市永和县的爱豆科技有限公司,有158个数据标注工在从事类似的工作。一排排黑色电脑前,有人框定图片里出现的所有饮品,有人给一张张图片归类,有人查询某家商铺是否还在经营,并标注是否为“死店”……这样的数据标注工作,在2020年3月正式成为国家职业分类目录中的一个新职业——AI训练师(人工智能训练师)。其中,数据标注员、人工智能算法测试员是AI训练师职业下的两个工种。
王丽娜是公司158个数据标注员之一,工作两年半后,她成为项目经理。她对数据标注员的理解,从一开始“操作电脑的”,变为现在“人工智能产品的数据训练师”。她举了个例子,“比如一个机器人要识别水果种类,就要有人在前期大量的水果图片数据中,标注出什么是苹果什么是梨。无人驾驶需要让汽车自动识别马路,也需要人在视频中将道路框出”。王丽娜熟悉图片、文字、音视频的各项标注业务,但数据标注后具体用在哪一个人工智能产品?她说不上来。因为标注业务的保密性,她和100多名员工一样,“只能猜出个大概”。她记得有段时间,接到的业务是识别、标注出大量的“福”字。“手写的、春联上的、各种类型的福字,我们就猜产品应该是跟支付宝过年‘扫五福’相关,你没发现这几年用手机扫福后,反应速度都快了点吗?”
公司员工超过80%为女性,大部分是年轻“宝妈”。项目经理王丽娜觉得,“宝妈”员工更稳定,流失率低
靠着这种猜测,王丽娜经常觉得,生活中使用的智能语音产品、短视频平台的推荐功能等,都跟自己的标注工作有关,这让她有种模糊的成就感。 甚至最近,她听说自己做的数据标注跟目前行业内最智能的AI产品ChatGPT——一款智能聊天产品——也有关联。只是她说不清具体有什么关联,“应该是都需要数据标注吧?”
是的,ChatGPT也需要数据标注。 胡希塔是一家数据标注平台公司的创始人,关注数据标注行业多年。他告诉本刊记者:“人工标注数据是绕不开的步骤,ChatGPT和很多人工智能产品研发的流程相似,前期都需要大量的数据采集与标注,只不过ChatGPT更注重的是文本标注,之后再进行数据处理、模型训练等流程。它跟国内现有的智能聊天产品的区别,主要在于算法模型训练,研发人员更注重ChatGPT的自主强化学习能力,所以很大一部分数据未经标注就投进模型,等待它生成结果后再多次训练和调整。”根据公开资料,ChatGPT前期使用的数据来源于互联网文本、公开的数据集、各种百科资料等,包含几十亿个文本文档。
王丽娜从事的就是这类人工智能产品链条上最前端的工作,虽然他们工作的地点在一个看起来和人工智能完全搭不上边的偏僻贫困县城。作为曾经的国家扶贫开发重点县,永和县直到2020年初才完成脱贫。县城与陕西省交界,地处吕梁山脉南端,距离临汾市200多公里,驾车需要至少两个半小时。“到了永和,就到山沟沟了。”这是当地司机常挂在嘴边的话。一位司机说,位于黄土高坡上的永和县交通条件不好,2018年才开通去往太原市的高速路,再往前数几年,永和到临汾市的高速才完工。更早的时候,过年前遇到大雪、不能开车,在外打工的年轻人都没法回家。
永和县四面环山,居民大多住在自建的平房和石窑洞里,县里近几年才开始建小区楼
交通条件差,影响着县城的经济和就业,没有多少工作机会,很多劳动力去临汾、太原打工。一位接近政府机关的工作人员告诉本刊记者,虽然当地对外介绍县域常住人口4万多,但新冠肺炎疫情时期,全民核酸数据显示常住人口不足3万。县里也没有什么资源,2015年才探测出天然气,几个气站分散在县城外几十公里,慢慢吸纳了近千名劳动力,成为当地最大的企业。女性的就业选择更少,除了公务员、老师,就是服务员、售货员。王丽娜记得,八九年前,县城看上去还是“平平的”,没有一栋像样的商品楼,2019年底,她家才住进县城建好的第一栋小区。
现在,四面环绕着黄土山的县城虽然还是很小,但比四五年前“繁荣”了一些,这里建好了七八个十多层高的小区,城中心有条一公里多长的主街,主街上开了家饮品店,每到周末,中小学生能把店里的冰淇淋买光。本刊记者到达的时候,正月还没过去,主街两边行道树上缠着的灯带还没取下,到了晚上,彩灯亮起来,透出一股小城的喜庆蓬勃。
爱豆科技有限公司就在主街的尽头,再往前走100多米,一幢四层小楼的下两层是公司的办公区。2019年,蚂蚁集团与中国妇女基金会等组织发起了数字产业扶贫项目,在国家卫健委的协调下,永和县成为该项目在欠发达县城的第二批试点。2020年8月,这家山区里的数据标注公司成立。
这个数字产业扶贫项目的总监黄庆委告诉本刊记者,他们在项目发起前做过调研,发现农村主要人口构成是儿童、妇女和老人,其中妇女是农村占比最大的劳动人群。在吕梁山区的五个数字标注基地里,所有基地都是女性员工占多数。但永和县的女性员工占比最多,超过80%。黄庆委觉得,这跟县城本身的经济状况有关。“永和县面积小、就业机会少,男性劳动力大多外出谋生。”
2月下旬,在永和县的两层办公楼里,本刊记者看到数据标注员多为年轻妇女,她们称自己为“宝妈”。办公区设计也尽量为女性设想,在一个休闲区的角落,柜子上放了卫生巾、红糖、暖宝宝等免费用品,二楼的洗手间还有热水。
白丁转是这群“宝妈”之一,也是公司成立后招入的第一批员工。她今年32岁,女儿刚上幼儿园小班。她有个大脸盘,大眼睛,化了淡妆后,双颊还能看到密密的斑点。办公室里,她用手指在白墙壁上画出一个个框,试图解释清楚电脑上的图片标注步骤。她的手指有点粗,手面皮肤黑黑的,堆出了皱纹,这是她过去在乡村、在家庭中劳作的痕迹。
成为数据标注员之前,白丁转将近六年没接触过工作,其中大约三年在做家庭主妇。说起以前的生活,尤其是生完孩子后的生活,她偶尔噘起嘴唇,眼睛湿漉漉的,表示自己的不满。“那会儿真的累,不只是要带孩子,家里洗洗刷刷,所有家务我一个人包。抱着孩子蒸馒头、做家务,胳膊酸得抬不起来,还要在老公到家前把饭做好,比打工还辛苦。”她的丈夫在县城做装潢,工作不固定,经常干三天歇两天,即使这样,丈夫也不会分担家务。她解释说,丈夫是家里唯一的儿子,“从小没干过家务”。她也不放心把婴儿交给他看管。
有段时间,她觉得自己“很压抑,脾气很差,看什么都不顺眼”。一扇门没关紧,一句话没说好,她就想对丈夫发火。她不知道自己怎么了,也不知道有“产后抑郁”这个词。她只能把原因归结于经济状况:丈夫生意一般,自己没有收入,经济拮据,她想买套好点的护肤品、想给爸妈买点东西都要犹豫。不是没看过工作,县城里只有服务员比较合适,但服务员工作时间长,没有双休,而她的孩子还没断奶。种种不顺,让她开始怀念过去,以前的她脾气很好,几乎不与人争吵,更重要的是,以前她有工作。
白丁转的家在县城边上的山脚下,是两层自建的平房。她入职一年多后,成为办公室一个31人小组的组长
虽然第一份工作只有短暂的半年,白丁转还是能回忆起不少细节。那是她第一次离开乡村,去“大城市”苏州做电子厂的流水线女工。做女工前,她是家里五个兄妹中的“老三”,有两个姐姐、两个弟弟,再加上爷爷奶奶,一家九口人住在村里两孔土窑洞里,父母靠在黄土高坡上种的40亩玉米、谷子和高粱养活九口人。白丁转跟两个姐姐一样,读到高中后辍学,省钱给两个成绩更好点的弟弟读书。尽管她自己成绩中上,对大学也有期待,但她“很懂事地选了打工”。
到苏州的第一个不同是讲普通话。以前只在电视节目、语文书本这两个场景中出现的普通话,开始需要白丁转自己主动说。这个倒也好克服,她最不习惯的是饮食,“整天吃米饭,面条很细很软”。刚去苏州一个多月,她瘦了十多斤,脸上长满了青春痘。
也有美好的回忆。比如周末,她和三四个同乡同学(后来同为厂区女工)去逛园林,穿古装拍了些照片。她还记得当时在路边遇到拿碗乞讨的乞丐,几个女孩掏出硬币,之后乞丐频频经过她们,她们给了好几次一块钱。“当时就觉得自己能挣钱,乞丐比我们可怜多了。”白丁转说,在电子厂包吃住,每月工资不到2000块,还有双休,不算特别辛苦。但第一次离家的她太不适应南方的气候和饮食,临近年关,她尤其想家,最后跟几个同乡一起辞职,提前回了老家。
第二份工作,白丁转没有离家太远。她去太原学习儿童摄影,因为二姐也在太原,俩人能有个照应。这一次,白丁转从学徒到店长,一共在这家店工作了四年。她稳定地工作,每个月工资不到3000块,可以给正上学的弟弟补贴生活费。但工作到第四年,白丁转的奶奶得了痴呆,如果没人随时看着,很容易在山里到处乱走,遇到危险。当时她两个姐姐已经出嫁,弟弟们还在读书,爸妈农活闲不下。“我从小跟奶奶感情好,就主动辞职回家照顾老人。”白丁转说。
从那之后,白丁转远离了工作。村里没有工作机会,窑洞里连手机信号都时有时无,她没别的事儿干,就在照顾奶奶的同时担负起所有家务。一年多后奶奶去世,“人家说我岁数也不小了,经过介绍,认识了附近村的老公。”之后,她按部就班地结婚、怀孕生子,做家庭主妇,为家庭经济、育儿和夫妻关系焦虑。
白丁转脱离工作、成为家庭妇女的经历,也是县城大部分女性的缩影。 回归家庭,成了很多女性的命运。多位女性数据标注员告诉本刊记者,她们回到县城的最大原因是“结婚生子”,她们大都做过几年家庭主妇,即使家中有老人帮忙带孩子,但县城本身很小、工作机会不多,也只能待在家里。一部分嫁到外地的女性,就在外地做家庭主妇。白丁转说,在家里待久了,她偶尔会心慌,觉得自己一点进步也没有,她“强烈地想要工作”。直到2020年7月,跟很多女性一样,她在手机朋友圈看到别人转发的AI训练师招聘通知。
公司上午11:30开始午休,方便一些女员工中午回去接孩子,关系近的同事还会到附近的餐馆一起吃个饭
县城里很多年轻妇女被招聘通知上的“双休”“办公室工作”几个条件吸引,白丁转也一样。她做儿童摄影时有电脑操作基础,打算去面试。当时女儿即将一周岁,还没断奶,家人以为她“不想带孩子”。但她这次很坚定,推着婴儿车就去县城广场上报名。通过初试后,她进行十天的数据标注培训,期间把女儿交给丈夫带,“女儿从沙发上掉下来至少两次”。
2020年8月3日,白丁转到现在还能清楚记得自己的入职时间。那一天,她成了一名有工作的人。在这前两天,收到复试通过后的消息,她立马打电话给婆婆,把女儿托付给30公里外住在农村的公婆。她还买了辆电动摩托车,一是通勤用,更重要的作用是每周五下午6点下班后,她可以骑上电动摩托回村看女儿,周日晚上再回县城。就这样,她从第一批约120人的报名者里留下,成了19名正式的数据标注员之一。
白丁转和同事们进入数据标注行业时,已经过了行业发展的第一个爆发期。丁威在2017年底成立了自己的数据标注公司,过去五年多,他看见行业内“一波又一波公司涌入”,又因为各种原因倒闭,如今,他的公司还保留100多个数据标注员,他觉得自己在行业内“算好的了。”
往前看,数据标注成为一门行业的时间并不长。丁威告诉本刊记者,数据标注的起步期可以追溯到2012年。那一年,华裔科学家李飞飞团队组织了第三届ImageNet竞赛——衡量哪些算法能以最低的错误率识别ImageNet数据集图像中的物体。比赛的冠军团队提交了一个卷积神经网络架构(英文简称为CNN),这一架构使图像识别准确率大幅提升。到今天,国内外各大社交网络平台、无人驾驶等几乎任何识别图像和视频的系统都使用卷积神经网络架构。所以,把人工智能的繁荣归功于2012年ImageNet竞赛结果的公布——这几乎是业内的共识。也是这一年起,人工智能具备了走出实验室,走向市场的能力。
在国内,头部的互联网公司也开始基于CNN技术建立属于自己的数据集,并进行数据标注。2016年,谷歌研发的深度学习人工智能产品AlphaGo 3∶0战胜世界顶级围棋手李世石。人工智能产品在一项极度需要脑力、耐力的比赛中获胜,比四年前的ImageNet竞赛引发更大反响。国内的互联网公司迫不及待要推出同类产品,数据标注行业迎来了“风口期”。丁威记得,当时各种资本涌入市场,甚至出现很多公司找不到一家合适的数据标注企业的情况。
之后,数据标注行业经历了一段“粗放期”。当时数据标注工作的质量要求不高,对图片进行重复框定就能实现项目需求,一张图的价格不过几分钱,全靠数量获取微薄利润。丁威在这一时期进入行业,“慢慢摸索”成立了自己的公司。丁威说,他刚好赶上2017~2019年行业的爆发期,他公司的数据标注工从10多个扩展到最多时的四五百个。“那段时间也是我压力最大的时候,天天担心有业务没人做,或者有人没业务做,特别不稳定。”也是在2018年,百度在山西太原落地了第一座人工智能数据标注产业基地,现在拥有超过5000名数据标注师。
一位同样在2017年入行的数据公司创始人胡希塔告诉本刊记者,数据标注业务涵盖了语音、图像、视频、文本四种主流的类型,行业爆发期那几年,自动驾驶业务也进入,为行业带去了更多业务量。“自动驾驶对数据标注的需求量更大,因为它要求接近100%的精准度。”胡希塔说,大部分人工智能产品对模型精准度的要求都高于90%,但当精准度想从90%提升到95%,或者从95%再往上提升一点时,对背后数据量的要求可能是百万甚至千万级。“精准度要求越高,需要的数据量成倍增加,意味着数据标注数量同样加倍。”
也是那几年,丁威看到无数个数据标注公司像潮水一样涌入,很快又退去。“一般来说,做得不好的数据标注公司熬不过头一年。”丁威解释,当时正处于行业的不稳定期,公司业务可能上个月是波峰,下个月就到了波谷,“波谷时养不起员工,很多公司赔不起钱,就倒闭了”。他总结,培养一个成熟的数据标注工大概需要3~5个月,很多数据公司的员工没有底薪,丁威就给自己团队的员工支付前三个月的保底工资,等员工熟悉业务后再“自给自足”。另外,丁威也不仅仅依附于某一家互联网公司,而是接不同平台、不同类型的业务,锻炼员工的标注技能。靠这种方式,他的公司到现在还有多位员工是2017年公司初创时就加入的。
但到了2020年初,新冠肺炎疫情暴发后,丁威感觉行业受到了不小的影响。他了解到一家无人驾驶公司,在2022年消减了80%的数据标注业务;另一家公司,上千万的订单取消了。“很多公司勒紧裤腰带,减少标注业务,造成我们也没钱赚了。”另外,丁威觉得行业内还有个问题是“账期太长”,“我们把活儿干完了,开完发票等着到账,有时候一等就是半年、一年,你起诉公司也没办法,我现在外面还飘着不少账”。这让一些规模更小、业务更散,同时抗风险能力更差的公司很难长久生存下去。这两年,丁威发现新进入行业的小规模数据标注公司也变少了。原先存在的小公司则“学会抱团、共享业务了”。“对小企业来说,这也算是个趋势,不然它接不了大单子,很难生存。”
跟丁威的感受不太一样,永和县爱豆科技有限公司的总经理李林峰告诉本刊记者,公司没受到太多疫情影响,因为公司本身起源于扶贫项目,有公益性质,所以县政府免费提供了办公场地,蚂蚁公益基金会也在公司刚成立时,提供了几个月的“员工成长期”资金支持。
过去三年,他们接到的业务订单比较稳定,大多来自蚂蚁集团内部,或者集团作为枢纽,为这些县级小企业引入其他公司的业务。“总体上,我们的业务量不断增加,去年11月拓展出一个无人驾驶项目部,现在有五六十人。标注业务的难度也在上升。”李林峰说,疫情对公司的影响,是2022年春上海疫情暴发,上海是国内最大的数据库所在地之一,封城影响数据采集、业务交接等一系列流程,那段时间公司的业务变少,他就安排员工调休。另一次,是去年11月疫情放开前,全国各地新增感染病例,永和县也封了城。“员工签了保密协议,把电脑搬回自己家办公。”两周后,疫情管控放开,员工再把电脑搬回办公室。
说起业务量变化,白丁转也有体会,工资是最直观的体现。 2021年11月,工作一年多后的白丁转升为办公室小组长,她所在的小组有31人,去年11月,小组人均工资第一次超过4000元。放在三年前刚入职时,她都没敢想这个数字。数据标注行业很少有底薪,基本是计件工资,她记得自己第一个月业务不熟练,收入1700元,“已经很满意了,有双休,还能坐在办公室吹空调”。往后,她收入偶尔超过5000元,还开玩笑说,“也是能交税的水平了”。
第一次,白丁转成了小家庭里的经济支柱。 三年疫情,做装潢的丈夫业务变动大,账期长,总体收入不高,家里花销的大头是白丁转负责。她发现夫妻二人地位渐渐平等,因为丈夫会在她工作忙的时候做饭、做家务了。去年夏天,女儿回县城上幼儿园后,跟爸爸的相处时间更多,不像小时候那样完全黏着她,父女关系也亲近了点。跟白丁转一样,公司里不少年轻妇女成了家里的“顶梁柱”,一些员工家里的烘焙店、早餐店因疫情倒闭后,也只能靠妻子的收入支撑。
不只是家庭关系,她和同事们也变得“更关注自己”。 她告诉我,办公室有许多宝妈,以前做家庭主妇,“在家可能一个星期都不用护肤品,随便洗把脸就好”。有了工作后,同事闲下来经常讨论化妆、购物等话题,她们又开始描眉毛、染头发,买新衣。永和县城内没有公园和景点可休闲,周末或者节假日,关系好的同事约着一起去二三十公里外的黄河湾边野餐。满目的黄土里,露出几块彩色的野餐垫和垫子上的草莓。
更重要的是,这群女性通过数据标注,觉得自己和更大的世界产生了关联。 白丁转现在还记得当年在流水线上的工作——坐在履带旁、给一块板子的固定位置插上电阻。她模仿当时的工作状态,手指在桌面上啄了几下,“没有任何可以发挥想象的空间,上厕所还要报备、请同事帮你照看着板子,很枯燥”。做了数据标注员后,她说自己学到了不少东西。“我做过一次旅游相关的业务,标注景区的不同级别、类型等,对这种不太懂的领域,我们经常要去查关键词到底是什么意思。我搜索过西双版纳、玉龙雪山的景区资料,很美。”在一块电脑屏幕前,她想象2000公里外的大自然。“将来有没有机会我也去那儿看看?”
说起未来,永和县很多数据标注员都很乐观。公司的无人驾驶项目组,标注技术更复杂,最近一直在面试,吸引了好几个本科学历员工。人多了,办公区场地不够,二楼的经理办公室里挤着放进了财务、项目经理的工位,李林峰跟政府协调,希望有更大的场地。员工们觉得这些都是好事儿,说明公司正往好的方向发展,她们本身也吸引了不少亲友来做数据标注。去年,高中学历的王丽娜还跟几个同事报名、上网课,获得了函授大专学历。
根据国际数据公司IDC发布的2021年《中国人工智能基础数据服务市场研究报告》预测,国内2025年市场规模将突破120亿元。丁威也看到这个数据,但他觉得扶贫性质的数据标注企业未来并不是一片乐观。
“集团不可能一直养着你,给你业务,而且如果业务太过单一,离开集团后,这些公司如何增加市场竞争力?”丁威说,目前行业内越简单的标注业务利润越薄,比如图片、中文语音标注等等,已经在前期有了大量标注基础,越往后需要的标注量越少。“市场竞争力跟员工的技能有关,现在数据标注的发展方向也有了门槛。比如医疗类的标注需要基础的病灶分析,有的业务方提要求,必须医学硕士去做。语音标注也开始要求多语种,这些标注门槛都在变高。而挂靠于某一集团的数据标注公司依赖性太强,对市场的敏锐度也不够,被淘汰的风险更大。”丁威说。
李林峰不是没有这一层隐忧,前几天,无人驾驶项目组里有几个员工离职,“去大城市赚钱”。他打算今年自己也多走出大山,跟东部一些市场化的数据标注公司学习,尽量拓展集团外的业务。
他知道公司的基层员工要求不高,只希望手里有活儿。就像现在,虽然是周末,公司一楼的办公区还有七八个女性在加班。她们大多化了妆,涂了口红,在电脑屏幕前快速移送鼠标、敲击键盘。屏幕上的图片、视频一个个闪过,让人看着眼花。
以上内容(如有图片或视频亦包括在内)为自媒体平台“才汇云网”用户上传并发布,本平台仅提供信息存储服务。