第95章 数据标注员(1/2)

林夏的指尖在鼠标上悬停两秒,最终点击了“通过”按钮。屏幕中央的图片里,一只半掩在草丛里的猫被红色框线精准圈出,框线边缘与猫的轮廓严丝合缝——这是他今天标注的第127张图片。办公室里只有机械的键盘敲击声和空调出风口的微弱气流声,窗外的天已经暗透,玻璃上映出他面前亮着的两块屏幕,左边是待标注的原始数据集,右边是标注工具界面。

他抬手揉了揉太阳穴,视线扫过屏幕右下角的时间:晚上八点十七分。桌角的保温杯里,下午泡的菊花茶已经凉透,杯壁上结着一圈浅褐色的茶渍。手机在口袋里震动了一下,是合租室友发来的消息:“今晚加班吗?我煮了面条,给你留一碗?”林夏回了个“再等一小时”,把手机塞回口袋,重新聚焦在屏幕上。

今天要处理的是自动驾驶场景的图像标注任务,要求标注出图片里所有的行人、车辆、交通信号灯和道路标识。早上组长开会时特意强调,这批数据要给合作的车企做算法训练,“像素级精度”是死要求,错标、漏标一个都不能有。林夏记得很清楚,上个月有个同事因为把“右转箭头”标成了“直行箭头”,整批数据被打回重标,还扣了当月绩效。

“林夏,第3组数据里有几张雨天的图,反光有点严重,你那边标注的时候多注意下。”邻座的张姐推过来一杯热咖啡,声音压得很低。她的眼镜片上沾着一层薄雾,面前的屏幕上密密麻麻全是标注框,“我刚才标错了两个行人,返工的时候才发现,眼睛都快看花了。”

林夏接过咖啡,指尖传来温热的触感:“谢了张姐,我标到雨天图会放慢速度的。”他打开第3组数据,果然,第一张图就是雨天傍晚的街景,路灯的光在积水路面上形成大片光斑,远处一个穿深色雨衣的行人几乎要和背景融在一起。他放大图片,一点点调整标注框的边缘,确保框线刚好裹住行人的轮廓,又不会多框进旁边的路灯杆。

这样的细致需要极大的耐心。林夏刚做数据标注员的时候,总觉得这份工作“没技术含量”——不就是对着图片画框、分类吗?直到入职第一周,他因为把“电动车”标成了“摩托车”,被组长叫去办公室。组长没批评他,只是打开两张图片对比:“你看,电动车的车轮比摩托车窄,车座下面没有排气管,这些细节都是算法识别的关键。我们标错一个,算法可能就会在实际场景里认错,这要是用到自动驾驶上,就是安全隐患。”

从那以后,林夏养成了“多看两眼”的习惯。遇到不确定的类别,他会翻出公司的《标注规范手册》,手册里详细到“三岁以下儿童归为‘幼儿’类”“快递三轮车需单独标注‘货运非机动车’”;遇到模糊的图像,他会用标注工具里的放大、对比度调节功能,一点点抠细节。时间久了,他的标注准确率在组里一直稳居前列,上个月还被评为“月度优秀标注员”。

晚上九点半,林夏终于把今天的任务量完成了一半。他伸了个懒腰,颈椎传来一阵酸痛——长时间盯着屏幕,保持同一个姿势,几乎是所有标注员的职业病。他起身去茶水间接热水,走廊里的灯亮着几盏,还有几个工位上坐着人,都是在赶项目进度的同事。

茶水间里,负责语音标注的小李正在泡方便面。“夏哥,还没走啊?”小李咬着叉子,“我这语音转写的任务快熬出头了,你那图像标注还得熬多久?”

“快了,明晚之前能交。”林夏拧开保温杯的盖子,往里面加了些枸杞,“你们语音标注也不轻松,听说上次有个方言语音,你听了十遍才听明白?”

“可不是嘛!”小李叹了口气,“有个老人说的方言,‘公交车’说成‘公汽儿’,我一开始标成‘工具车’,被审核打回来了。后来找老家是那边的同事帮忙听,才搞对。”

林夏笑了笑,其实不管是图像标注还是语音标注,本质上都是在给ai“喂饭”——ai就像个学说话的孩子,标注员标注的数据就是“教材”,教材越准确、越细致,ai学得就越快、越准。这份工作看似枯燥,却藏着技术落地的关键一步。

回到工位,林夏打开审核系统,开始自查今天标注的图片。这是他的习惯,每天睡前都会把当天的标注数据再过一遍,避免出现低级错误。他点击第一张图,红色的标注框一个个跳出来:行人2个、小轿车3辆、交通信号灯1个、限速标识1个。他对照着规范手册,逐一检查类别和框线位置,确认没问题后,点击“提交自查”。

就在这时,他发现有一张图片的标注有点问题。图片里,一个穿校服的学生骑着自行车,他之前标成了“青少年+自行车”,但仔细看,自行车的后座上绑着一个大书包,书包上印着“xx快递公司”的logo——按照规范,“携带货运物品的非机动车需标注‘货运非机动车’”,虽然书包里不一定是快递,但根据“疑似货运优先标注”的原则,这个标注需要修改。

林夏立刻打开标注工具,把“自行车”改成“货运非机动车”,又在备注栏里写了“后座携带疑似货运物品”。改完后,他又想起组长说的“数据可追溯性”——如果后续审核有疑问,备注能帮审核员快速理解标注逻辑。

晚上十点十五分,林夏关掉电脑,收拾好东西准备回家。走出办公楼,晚风吹在脸上,带着一丝凉意。他掏出手机,给室友回消息:“面条还有吗?我回来了。”

室友很快回复:“留着呢,热一热就能吃。”

回到合租的公寓,室友已经睡了,厨房的锅里温着面条,旁边放着一小碟咸菜。林夏把面条倒进碗里,加了点醋,狼吞虎咽地吃起来。白天的疲惫在热汤面的暖意里,消散了不少。

第二天早上七点,林夏被闹钟叫醒。他摸过手机,先看了眼工作群,组长发了条消息:“今天下午三点有新标注规范培训,涉及‘特殊天气场景标注’,所有人必须参加。”他回复“收到”,然后起床洗漱。

早餐是面包和牛奶,他一边吃,一边翻出手机里存的《特殊天气标注预习资料》。资料里提到,雨天、雾天、雪天的标注要额外添加“环境标签”,比如“雨天+夜间+积水路面”,还要标注出“水洼”“积雪堆”等障碍物。林夏把重点内容用荧光笔标出来,想着下午培训的时候要认真记笔记。

上午九点,林夏准时到公司。他打开电脑,先处理昨天没完成的标注任务。今天的图片多是雾天场景,能见度很低,很多物体的轮廓都模糊不清。他把对比度调到最高,又用标注工具里的“边缘检测”功能,一点点勾勒物体的轮廓。比如标一辆公交车,他要先找到车头的车灯——雾天里,车灯的光斑是最明显的标识,然后顺着光斑找到车身的大致范围,再调整框线,确保不会漏掉车轮、车窗等关键部位。

中午十二点,林夏去公司食堂吃饭。食堂里人很多,他找了个空位坐下,旁边坐着审核组的王哥。王哥是公司的老员工,审核过的标注数据不计其数,对标注规范的理解特别透彻。

“王哥,下午的特殊天气标注培训,是不是要重点讲雾天的标注啊?”林夏问道。

王哥舀了一勺米饭:“对,雾天是最难标的,尤其是‘远距离物体’的标注。比如远处的交通牌,只能看到一个模糊的轮廓,这时候不能瞎标,要根据牌面的大致形状、位置来判断——圆形的可能是‘禁止通行’,方形的可能是‘指路牌’,实在判断不了的,要标‘疑似标识’,并在备注里说明。”

林夏点点头,把王哥的话记在心里。他知道,审核员最看重的就是“严谨性”,不确定的地方不能随意下结论,备注清楚,才能减少后续的沟通成本。

本章未完,点击下一页继续阅读。