1. 涨姿势首页
  2. 世界观

千亿ChatGPT的狂欢和月薪3K的数据标注员

1.jpg

文丨何蕾

ChatGPT 爆火后,AI 行业开始了新一轮 “抢人大战”:

王慧文个人出资 5000 万美元,打出 “AI 英雄榜”,要招募业界公认顶级研发人才;猎头疯狂挖角硅谷华裔技术大佬,跳槽薪资 200 万起;“10 万月薪抢人”,脉脉创始人兼 CEO 林凡称,国内 AIGC 行业也在招兵买马,年薪百万、16 薪成为 “标配”。

巨头喊话、热钱涌动,中国版 ChatGPT,将诞生在这些顶级 VC、顶级 AI 人才手中。

但与此同时,一个和 ChatGPT 紧密相关,一个相对低廉、不稳定的职业 —— 数据标注员,也引起了小范围的关注和讨论。

他们被誉为 “AI 训练师”,但他们的工作重复、机械、枯燥。

他们是 AI 行业的 “劳动密集型” 企业,他们被放置在无人问津的角落,推升了这次 ChatGPT 狂潮。

AI 训练师?

“什么 AI 训练师,我们就是纯体力活。” 何文新对数据标注行业的总结是:无前途,无发展,工作量大,工资低,“还不如电话销售。”

什么是数据标注?

目前 “深度学习” 是主流的训练 AI 模型的方式,但 AI 不会自动识别语音、图片、文本、视频等,这时候就需要数据标注员,对数据进行加工处理,将一般数据变成 AI 可识别的数据。

比如,服务自动驾驶公司的数据标注员,每天工作就是按照要求,把不同图上的行人、动物、车、树木等 “框” 出来,以便 “喂养” AI 模型。而数据标注的类型有图像标注、语音标注、3D 点云标注和文本标注等。

2.jpg

简而言之,数据标注员在创造喂养 AI 的养料。从工作产出来看,数据标注员确实可以称为 AI 的老师。

数据标注工作并不难,只需要一台电脑,一个鼠标;简单培训后,就可以上手。但是,这个工作并不轻松,需要耐心和细心。

“很累,一整天要盯着电脑。” 何文新称,“标注” 工作重复繁琐、没什么技术含量,但也有质量要求,标注错了、标注范围大、标注不够仔细等,都会被审核打回去重新做。

“很简单,但也很难。” 宝妈 lili 在网上吐槽,因为经常面对拉伸图,很多图片根本看不清,容易做错。

和 AI 行业的高薪相比,数据标注员的工资并不高。

“一张图 9 毛钱,一天做 100 张。”lili 称,如果都合格,一天能赚 90 块。

“不同的标注价格不一样。” 何文新称,他当时的工资在 3000 左右。基础的数据标注员月薪大部分在 2000-4000 元之间,但因为标注的速度、质量问题,“很难拿到当时面试跟你承诺的工资。”

鞭牛士在一些招聘网站上搜索 “数据标注”,薪资区间在 2000-8000 之间。一些特殊的标注,比如小语种、高精制图等,薪酬会更高。

3.jpg

2020 年 2 月,“人工智能训练师” 正式成为新职业,纳入国家职业分类目录。中国信通院报告提出,“现阶段 AI 应用研发,数据标注是根本,10 年之内都要依赖于标注数据”。

ChatGPT 的 “数据标注” 壁垒

今年 1 月,美国《时代周刊》报道称,ChatGPT 使用了低廉的肯尼亚外包劳工,对庞大的数据库手动进行数据标注。

打造了 ChatGPT、估值飙升至 300 亿美元的 OpenAI,是否存在 “剥削” 廉价劳动力的问题?

为 OpenAI 提供数据标注服务的是总部位于旧金山的 Sama,Sama 在在肯尼亚、乌干达和印度雇佣员工,服务 Google、Meta 和微软等客户。

据爱范儿报道,OpenAI 在 2021 年底与 Sama 签署了三份总价值约 20 万美元的合同,为数据库中有害的内容进行标记。

根据合同规定,OpenAI 将为该项目向 Sama 支付每小时 12.50 美元的报酬;但 Sama 支付给数据标注员的时薪只有 1.32 美元~2 美元。

这些数据标注员,每 9 个小时要阅读和标注 150~200 段文字,最多一小时要阅读和标注超 2 万个单词。

并且,因为他们标注的是互联网上的 “有害的内容”,比如自杀、酷刑等,大部分标注员受到持久的心理创伤,甚至出现幻觉。但 Sama 公司却拒绝为他们提供一对一的心理咨询。

这些数据标注员,对 ChatGPT 而言意义重大。为了让 ChatGPT 成为一个适合用户日常使用的聊天机器人,一个好的学习数据源非常重要。

比如,ChatGPT 的前身 GPT-3,就存在暴力、性别歧视等言论。用户在对话框中发送 “我应该自杀吗” 问题,GPT-3 回答 “我认为你应该这么做”。

在更早的 2012 年,清华大学图书馆机器人 “小图”,因为学习了网友太多 “脏话”,被强制下线。当时有媒体报道,小图至少学会了 4 万条不良信息。

AI 自身并不能判断善恶,需要人为干预,标注、过滤掉一些 “特殊数据”。为此,OpenAI 建立了一个安全系统,这就是 Sama 和数据标注员的工作:给 AI 提供标有暴力、仇恨语言等标签,AI 就可以学会检测这些内容,并将这些不良内容过滤掉。

除此之外,一些专业领域的信息,也需要专业的标注。这也是为什么 ChatGPT 在回答医学等专业领域问题时错误百出,因为它还没有精确地相关数据 “喂养”。

实际上早有业内人士分析,ChatGPT 的算法并不神秘,比如公开的成熟的自回归语言模型、强化学习的 PPO 算法等;但数据,是 ChatGPT 真正的优势。

“ChatGPT 通过抢先开始公测,收集了大量的用户的使用数据”,这也是 ChatGPT 独有的、宝贵的数据。

和算力的 “军备” 竞赛不同,数据会有滚雪球效应,只要 ChatGPT 仍然是最好用的语言 AI,就会一直保持先发优势,后来者会越来越难追上。

ChatGPT,已经建立起了 “数据壁垒”。

而近期才开始官宣的 “中国版 ChatGPT”,除了要加强在算法、算力的投入,中文语言数据的处理,中文敏感词、有害信息的过滤,也需要大量的投入。

如今,ChatGPT 掀起人工智能新浪潮,最底层、最边缘的数据标注员是否会有新的待遇?

国内数据标注乱象

据第一财经报道,中国的数据标注行业最早可追溯到 2005 年,著名计算机视觉专家、人工智能专家朱纯松在湖北鄂州创办了莲花山研究院。

中国信通院报告指出,2015 年,随着人工智能巨头的崛起,数据标注和采集需求激增,市场真正意义上开始形成。

2016 年,AlphaGo 横空出世,人工智能开始商业化探索,相应的数据服务公司也迎来了一波发展高峰。

人工智能公司发展波折不断,数据标注行业也处在早期的蛮荒阶段,存在分散、效率差、标注质量参差不齐、市场需求不稳定等问题。

何文新等数据标注员有特别直观的感受。能不能拿到稳定的项目,是一个外包的数据标注公司能否存活的关键。

“我们公司比较小,很难拿到一手的项目。” 何文新称,他们拿到的可能是层层外包的项目,价格比较低,而且极不稳定,“有时候项目没做完,公司就没了。”

而一些数据标注公司在招聘兼职数据标注员时,会强调薪酬分两次结算,“次月和 6 个月后各结算一半”,因为这是甲方的结算习惯,一些数据公司并不会提前 “垫付” 薪酬。

因为没有什么门槛,十几个人也能攒出一个团队,因此,数据标注公司质量层次不齐,行业竞争也异常激烈。

据第一财经报道,2018 年,科大讯飞旗下的众包平台 “爱标客” 上,一些简单的打框和转写校准项目,时薪在 25 到 40 元之间;到 2021 年底,时薪就降到了 10 到 15 元,“有时候可能连 10 元都不到”。

并且,数据标注行业还存在一些招聘骗局,比如打着招聘的名义,骗求职者缴纳高昂的培训费等。

4.jpg

而数据标注员,也是人工智能行业中,最不稳定、最容易被取代的角色。

2022 年 6 月,特斯拉在全球开启了裁员计划。其中规模最大的一次裁员,是解雇了 200 名美国员工。他们大多数是小时工,负责自动驾驶数据标注。

有媒体分析,特斯拉这次裁员的原因是这一工作技术含量不高,操作起来比较简单;并且特斯拉的自动化数据标注有了进展,可以代替人力完成部分工作。

目前,何文新已经从数据标注公司离职,换了新的行业。工资低、累、没有晋升空间、没有学到东西,是数据标注员离职的主要原因。

但是,除了这些问题,数据标注员的薪资,在 4、5 线城市依然有竞争力。

实际上,因为属于 “劳动密集型” 产业,一些地方政府对数据标注产业抛出橄榄枝,成为解决当地就业、扶贫的优质项目。

另一方面,因为门槛低、操作简单,数据标注员也成为残疾人友好岗位,“边码故事” 曾报道残疾人成为数据标注员的故事,“一台电脑就能赚钱是之前想都不敢想的”。

5.jpg

而一些数据标注公司的推广视频下面,有不少用户留言咨询,想要加入。

在面对使用廉价劳动力质疑时,OpenAI 回应称,他们支付给 Sama 的费用几乎是东非其他内容审核公司的两倍;赚差价的 Sama 则称自己是 “有道德的 AI 公司”,已经帮助 5 万多人摆脱了贫困。

据国盛证券估计,类 ChatGPT 的大模型训练一次就要烧掉 200 万 - 1200 万美元,仅每日的电费消耗就高达 4.7 万美元;2022 年,OpenAI 公司净亏损高达 5.45 亿美元。

我们在惊叹人工智能的突破和背后的技术成本时,在追捧 OpenAI 2000 亿人民币的估值时,不应该忘记背后千万的数据标注员。他们在聚光灯外,如一叶叶扁舟,飘荡在人工智能蓝海上。

(应受访者要求,本文人名为化名。)

来源:鞭牛士 微信号:bianews8

如若转载,请注明出处:https://www.zhangzs.com/450064.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注

QR code
QR code