7月12日,趴在办公桌上午休了半小时后,18岁的山东女孩李华婷睁开了眼睛,继续从电脑里的生活照、风景照或街拍照片中按客户需求框出汽车、动物、乐器等物品,交给机器学习识别。她是一名人工智能数据标注员,在北京市北五环外西二旗的这家数据标注工厂,这样的动作她每天要重复数千次。
所有人工智能(AI)都离不开深度学习系统,这个系统的技术提升依赖大量人工完成的标签化数据。数据在人工完成筛选标注后,交由机器自我学习,标注数据的人被称为标注员。这些数据将被用于人脸识别、安防、无人车驾驶等,这是整个AI产业的基础,是机器感知现实世界的原点。
这家数据标注工厂目前有300多名员工,大多是年轻人甚至00后。这里的标注员大都毕业于大中专院校,月收入5000多元,工厂在5站地铁外为员工们提供了免费宿舍。
21岁的张嵛森毕业于山东一所劳动技术服务学校,同期毕业的同学有的去了114查号台,有的去了联通、移动等电信公司做客服。他的室友阿宽今年17岁,刚刚入职不久。阿宽说,虽然每天坐在办公室里,但通过来自世界各地的照片可以认识外面的世界。这也是张嵛森认为自己比其他同学幸运的地方,“这是一份有趣的工作”。
张嵛森的女友林雪在工厂中负责质检,一天要检查2000多张处理好的图片,需要时刻保持紧张的工作状态。林雪的客户会在500张做好标注的图里进行抽查,做错一张图,那500张就不会按照原价付款了。遇到人脸标注的照片时则需要抽查10%,如果错误率超过1%,客户就会要求更换标注员和标注账号。
除去容错率,另一个最重要的规则就是信息保密。每一台计算机都禁用USB口,标注员在封闭并且被监控的情况下处理数据。数据被交付给标注员前会先做碎片化的“脱敏处理”:一份表格被打散,再分发给终端节点作业员,每个标注员手中拿到的只是表格中的一部分。
38岁的杜荣霞负责管理清一色还在实习的年轻面孔。他们在经过1到3个月的培训后,基本可以掌握处理数据的规则。有的实习生会在电脑键盘上插一个小圆镜,通过反射看到从身后经过的人,这是在学校用来观察老师行踪的办法。杜荣霞说:“他们比我的女儿大不了多少,有时候觉得就像带着一群孩子一样。”
这家公司的创始人杜霖是个80后。从事过图像识别相关的工作,他看到人工智能行业对数据的爆发式需求,于是决定创业。他介绍,国内人工智能的数据市场已经达到数十亿元人民币的规模,但标注行业的团队水平参差不齐。一些团队以很低的价格接标注任务,却因为没有技术积累,标注质量、交付日期经常会出问题。
除了全职员工,这个行业里还有不少兼职人员。“宝妈”(全职母亲)掌握了相关规则后,在家就可以完成工作。杜霖还希望将一些基础工作交付给行动不便或是有听力障碍的残疾人。在杜霖看来,他们找工作不容易,但大多认真专注,非常适合标注员的岗位。
不久前,美国特斯拉公司的自动驾驶汽车发生事故,就是因为系统误将前方车辆的蓝色车身识别为蓝天白云。“如果一辆自动驾驶汽车在行驶中出了事故,原因可能就是标注没有做好。”林雪说。这些年轻的标注员相信,自己所处理的每一个数据都将和最前沿科技的人工智能联系起来,这让他们很有成就感。
中国青年报·中青在线记者 李隽辉摄影报道