(资料图)
数据标注是AI(人工智能)实现的基石,特别是ChatGPT的横空出世,把AI的热度推向了一个新的巅峰,那么作为整个AI产业链的基础层支撑之一,数据标注自然也不能被忽视。
2020年,人工智能训练师被正式纳入国家职业分类目录,一般来说,人工智能训练师主要分为数据标注员和人工智能算法测试员。数据标注从业人员在业内素来有“AI民工”的称号,由此不难看出数据标注属于劳动密集型产业,具有机械性、重复性的特点,而此类工作正是AI要取代的方向。如此看来,数据标注行业似乎有种舍身饲虎的感觉。
其实不然,目前主流的机器学习方式以有监督的深度学习方式为主,对于标注数据有着强依赖性需求。且不说当前AI的火热会带动数据标注需求短时间内增长,长久来看,人类社会的发展是一个动态的过程,世界更是千变万化,从中采集的数据自然也不会是一成不变的,而AI要进化,就需要不断地识别和学习经过清洗、处理而成的结构化数据。所以,只要AI存在一天,数据标注就不会消亡。
如果把AI当作一匹马,随着越来越多的AI应用落地,现在的AI市场俨然一幅万马奔腾的画面,要想在AI市场脱颖而出,唯有升级为“千里马”。俗话说“好马喂好料”,纵有算法千般好,没有好的数据供其训练也只能“才美不外见”,这就对数据标注行业提出了更高的要求。相比以往的低门槛,今后的数据标注从业人员需要具备更加专业的知识。如发展医疗、法律、金融、工业等专业化水平较高的AI技术,就需要具备一定专业知识的人进行数据标注工作。在这方面,大型的工厂式数据标注公司在技术储备、人员培训方面的优势就得以显现,会进一步挤压中小型工作室的生存空间。
AI行业常说一句话“有多少人工就有多少智能”,在ChatGPT独领风骚、AI概念高热不退的当下,仍有成千上万的AI训练师做着枯燥的流水线式标注工作。他们多就职于三四线城市的中小型工作室(人数由几十人到几百人不等),收入较低,难以获得福利保障。他们多数学历较低、就业竞争优势不大,其中不乏残障人士等无法从事正常工作的特殊群体。而且他们又极有可能是AI在数据标注行业最先取代的人。
与大型公司相比,工作室能接到的项目资源通常不稳定,且经过层层转包,到了最后一层,自然没有多少利润,也导致了从业人员的薪资普遍较低。究其原因,是数据标注行业发展粗放、缺乏规范。今后数据标注的标准会更高,竞争也会愈发激烈,数据标注公司需要去思考怎样提高效率、培训员工、规范行业以及承担更多的社会责任。
结语
发展科学技术的根本目的是解放生产力,把人类从繁重的体力劳动中解放出来。数据标注和算法研究一样为AI行业发光发热,为人类美好的明天做出贡献。