經(jīng)濟觀察報 周悅 任曉寧/文 白天,安迪在一所名校數(shù)學系攻讀研究生,夜晚,他則化身數(shù)據(jù)標注員,應招國內(nèi)外各種大模型的標注任務,時薪大概在150元—300元。
當Deepseek在1月下旬橫空出世后,這個工作越來越為外人所知。
Deepseek被討論得最多的方面之一是“文筆好”“情感真”。一些專家猜測,DeepSeek團隊可能給模型投喂了大量人文社科類數(shù)據(jù),還采用高水平的專業(yè)人員標注數(shù)據(jù),鼓勵模型幻覺,激發(fā)模型的想象力。
高質(zhì)量的輸出,很大程度上成就了Deepseek的增長紀錄——上線7天用戶破億。
這些與安迪們的工作密切相關。
數(shù)據(jù)標注,是指將圖片、語音、文本、視頻等數(shù)據(jù)處理成滿足機器學習訓練要求的可讀數(shù)據(jù)編碼,即把信息轉(zhuǎn)化為計算機語言供AI學習。
華人科學家、“AI教母”李飛飛,最大的貢獻之一就是給世界上的海量圖像做數(shù)據(jù)標注,為AI建立了標注圖像數(shù)據(jù)集ImageNet,補上了深度學習的最后一塊拼圖。
通俗地講,好比大人教三齡童認識事物的基本概念。大人掌握的知識越多,認知水平越高,解釋能力越強,小孩的成長越快,甚至能舉一反三,融會貫通。
AI的進化也是如此,依托算法、算力、數(shù)據(jù)共同驅(qū)動,背后的支柱分別是少數(shù)頂尖的算法科學家、海量的算力芯片以及海量的數(shù)據(jù)標注員。
隨著算法差距縮小,算力布局更廣,數(shù)據(jù)的質(zhì)與量愈發(fā)成為AI進化的關鍵。
數(shù)據(jù)特色會形成大模型的獨特風格,比如,美國公司Anthropic的Claude系列模型“很文科且擅長古詩詞”,表達兼具“信達雅”;谷歌的Gemini系列模型則更“理工科”,擅長編程。
與過去最基礎的數(shù)據(jù)標識工作(比如標注道路交通標識)相比,安迪們現(xiàn)在更像是給AI上“奧數(shù)課”。他們?yōu)榇竽P途帉懺瓌?chuàng)的數(shù)學題,并評估大模型的解題思路與準確性。要勝任此類工作,至少需要本科水平。
安迪所在的“我們是AI飼養(yǎng)員”百人群里,人們很少再討論“人有沒有AI聰明”這類話題。
兼職近半年,安迪每完成一個任務就會“小抑郁幾天”,因為“很耗神,非常累”。并且出題難度在增加,部分已經(jīng)達到研究生以上水平。雖然大模型可能不一定完全正確,但進步速度太快。
今年以來,安迪發(fā)現(xiàn)平臺任務量沒有以前多了,錯過一個任務要等一兩周——AI們可學的東西正在變少。
過去,人工智能行業(yè)有“有多少人工,就有多少智能”的說法,如今,AI的“飼養(yǎng)員”已經(jīng)變成碩士、博士,讓人聯(lián)想到《三體》里那句話:這是人類的落日。
甲骨文的供養(yǎng)
清華大學博士后馮聰,從2023年7月開始接觸AI標注工作。
她的專業(yè)為甲骨文研究,博士后階段交叉學習了計算機科學。甲骨文研究是一個冷門專業(yè),一般會在考古現(xiàn)場或是某個博物館工作。
ChatGPT爆火后,AI圈內(nèi)流行一個說法:ChatGPT性能較好的原因之一是他們招聘了50個領域的專家做標注。
在此之前,最常見的數(shù)據(jù)標注項目是自動駕駛類,標注員要為道路標識“拉框”“打標”,一天完成幾百個,以分為單位計件報酬,部分地區(qū)日薪剛過100元。
以大模型為代表的生成式AI,要求更高。經(jīng)過專業(yè)人才“投喂”后,模型數(shù)據(jù)會變得更干凈,算法會有更好的血脈,AI生成的內(nèi)容更符合人類審美。
馮聰在清華上學時的一位老師創(chuàng)辦了面壁智能,目前這家公司已經(jīng)成為AI領域的頭部公司,去年融資數(shù)億元。
2023年7月,面壁智能組建智能數(shù)據(jù)標注團隊,大量招聘高學歷人才,馮聰便加入了。
當時,高學歷的AI標注員非常稀缺,沒有人知道用什么樣的數(shù)據(jù)、如何進行標注能取得好的效果。即使是同樣的數(shù)據(jù),標注的人和方式不同,模型生成效果相差極大。
馮聰從自己最熟悉的古文字著手,一點點找到了生成式AI的標注門道。一開始,大模型只能學習10%的古文字,標注半年后,大模型基本能識別并生成喂進去的所有古文字。
“數(shù)據(jù)標注就像培養(yǎng)孩子一樣,有人精心培養(yǎng),有人野蠻生長。這兩年已經(jīng)普遍到了精心培養(yǎng)階段。”馮聰告訴經(jīng)濟觀察報,現(xiàn)在稍微知名些的AI公司,都培養(yǎng)了自己的高學歷AI標注員。
馮聰?shù)母吖鈺r刻,是2024年斯坦福大學抄襲事件發(fā)生時。當時斯坦福大學一個AI團隊發(fā)布了新模型,宣稱性能頂尖且成本極低。面壁智能算法工程師發(fā)現(xiàn),該模型與面壁的模型很相似,但這個懷疑很難被證實,因為算法代碼相似的情況很常見。
馮聰發(fā)現(xiàn)了鐵證。她標注的清華簡(戰(zhàn)國竹簡)數(shù)據(jù)被上述斯坦福大學團隊用到模型里,而這一數(shù)據(jù)集屬于面壁智能的獨家內(nèi)容。最終,這幾個斯坦福大學學生承認了抄襲。這件事也讓面壁智能登上熱搜。
做AI標注,時不時會讓人感到枯燥乏味。不過馮聰之前做的甲骨文學術研究,同樣是枯燥的。現(xiàn)在,AI為這種古老文化注入了新的靈魂,令她深受觸動。
一位70多歲的甲骨文權威教授對她說,幾千年的東西,與AI結合起來,更能擦出火花。
數(shù)據(jù)“蟻族”
早上10點,三水已坐在電腦前,揮舞鼠標,指揮千里之外的標注人員開展工作。
三水是某“211”大學研究生,具有垂類行業(yè)經(jīng)驗,幾個月前轉(zhuǎn)行進入一家估值幾十億美元的大模型初創(chuàng)公司做數(shù)據(jù)標注,他的崗位叫“AI數(shù)據(jù)專家”。
三水告訴經(jīng)濟觀察報,有上千名標注員為這家公司服務,絕大多數(shù)由項目經(jīng)理管理,完成簡單任務,如標注情感傾向、標注地名人名、去除無用信息等。
與三水合作的垂類行業(yè)標注員不到10人,多為有相關行業(yè)工作經(jīng)驗的人,他們既具備專業(yè)知識,又懂標注和文本編輯。這類人才稀缺,考核標準相對寬松,每人每天很可能只能完成3—5項任務。
標注員常常像分析師一樣撰寫答案,每條任務都是一篇專業(yè)作文。這些內(nèi)容不能出絲毫差錯,微小差異也需查證專業(yè)書籍或由業(yè)內(nèi)專家判斷。
這些標注數(shù)據(jù)并非直接展示給用戶,而是作為語料供算法工程師訓練,通用類數(shù)據(jù)讓大模型變得更智能,垂直類數(shù)據(jù)則使其更專業(yè)。
劉到閑在一家大廠擔任語音類產(chǎn)品的AI數(shù)據(jù)專家,她是某“985”大學語言學專業(yè)研究生。該產(chǎn)品核心目標是“讓AI語音更像人——能共情、情感充沛且理解力強”。
她的工作有三部分:分別是制定標注規(guī)則、監(jiān)測人員效率和完成率、在上千條標注數(shù)據(jù)中抽樣10%驗收檢查。有時候,她自嘲自己像一個“數(shù)據(jù)包工頭”。
劉到閑團隊對該模型的評價維度超過20個,包括避免字詞錯誤,保證文本流暢、上下文關聯(lián),保證語音自然、無發(fā)音錯誤,以及具備情感表現(xiàn)力等。
如何制定標注規(guī)則?以“語音不自然”為例,她需要評估語音的韻律、節(jié)奏、音質(zhì)、聲音抖動,甚至用工具查看聲音波形圖;而解決“情感不足”問題,最基礎的要求是語氣一致性,比如不能用悲傷的語氣說“我很開心”,更深入的要求是能識別用戶情感,AI的回復要表達共情和安慰。
相比醫(yī)療等垂類的專業(yè)難度,這類音頻標注工作更簡單,但考核也更為嚴格。如果標注員亂打分,誤差大或者人效低,AI公司會更換供應商。
標注員的工作類似“工蟻”。任務分發(fā)后,他們會在系統(tǒng)上看到兩條持續(xù)5秒到2分鐘不等的音頻,需反復聽并按要求打分評價。這類中等難度的工作,每天需至少完成200條;如果是更簡單的任務,一天要完成超過1000條。
服務這兩家公司的全職標注員,都有上千人,他們絕大部分來自外部數(shù)據(jù)供應商。這些數(shù)據(jù)供應商大多分布在河南、湖南、山西等省份的三四線城市。從十年前的智駕、智慧城市類AI標注開始做起,隨著最近幾年生成式AI標注需求陡增,這些數(shù)據(jù)供應商也開始轉(zhuǎn)行。
入行久、信譽好的數(shù)據(jù)供應商,其員工素質(zhì)相對較高。據(jù)三水了解,這些標注員在當?shù)氐墓べY相對較高,有些能拿到5000元以上,也吸引當?shù)夭簧俦究粕⒋T士生。
中國信通院報告指出,隨著人工智能巨頭的崛起,數(shù)據(jù)標注和采集需求激增,市場在2015年開始形成。此后,谷歌的AlphaGo橫空出世,人工智能開始商業(yè)化探索,數(shù)據(jù)標注等服務也迎來了一個發(fā)展高峰。
2020年,數(shù)據(jù)標注師被正式納入國家職業(yè)分類目錄。2021年,《人工智能訓練師國家職業(yè)技能標準(2021年版)》發(fā)布,數(shù)據(jù)標注員是人工智能訓練師的工種之一。
馮聰稱,事實上,普通用戶也在無形中成為AI的訓練者。目前國內(nèi)已經(jīng)有多個產(chǎn)品的月活用戶在3000萬以上,用戶每次的修正或者反饋,就是一次標注。
看得見的天花板
三水所在公司的AI數(shù)據(jù)專家分為醫(yī)學類、金融、法律等領域,此外還有一類叫生活類專家。招聘要求一般是985和211研究生及以上水平。
如果有豐富的垂類經(jīng)驗,也會適當放寬學歷標準,三水說:“其實是看你有沒有積累。”
DeepSeek在Boss直聘上也有類似的崗位,名為“AGI數(shù)據(jù)百曉生”,崗位介紹中的一條是“涉獵廣泛、博聞強識,對各行各業(yè)的知識都擁有強烈的興趣”。這一崗位的正式工資在1.5萬元/月—3萬元/月之間。
三水說,這個工作吸引他的原因有兩方面,一是比以前的工資高,每月在2萬元左右;二是氛圍較好,想法會被尊重,團隊愿意放手讓員工去嘗試。
在大公司中,經(jīng)常會出現(xiàn)歧視外包標注員的情況。但在這家公司,創(chuàng)始人對數(shù)據(jù)極為看重,會和標注員一樣坐在電腦前做標注。
雖然如此,三水對這份工作的前景并不樂觀。
他和劉到閑都把自己比做一塊電池,把數(shù)據(jù)標注的工作比作“持續(xù)放電”。三水說:“即便人充電的速度再快,也趕不上AI消耗你的速度。”
在三水看來,AI的智能水平已經(jīng)超越了大多數(shù)普通人。從技術角度來看,垂類數(shù)據(jù)有限,這一領域的從業(yè)者會更快觸到天花板。他已經(jīng)做好再次轉(zhuǎn)行的心理準備。
劉到閑最近的崗位調(diào)整驗證了這一點,她回到了基座模型團隊。很大的原因是公司的大模型能力發(fā)展迅速,在數(shù)據(jù)上沒有太多探索空間。今年以來,她的領導每一次周會都會反復質(zhì)問:數(shù)據(jù)專家的價值是什么?
高學歷AI標注員或許不缺轉(zhuǎn)行機會。他們在一家AI公司真正工作過,與算法工程師、產(chǎn)品經(jīng)理每天打交道,會很清晰地知曉AI生成的邏輯與流程。目前,熟悉AI行業(yè)的人才仍是稀缺的,馮聰帶過的AI標注員,不少人跳槽到字節(jié)跳動、百度等互聯(lián)網(wǎng)大廠,直到現(xiàn)在,仍有不少獵頭私信挖人。
在進入AI行業(yè)前,三水和劉到閑都長期思考過“AI與人類的關系”。劉到閑在本科期間就對AI產(chǎn)生了較大的興趣,曾經(jīng)想攻讀計算語言學方向的博士,一度相信語言學的訓練方式會讓智能涌現(xiàn)。
工作近2年后,劉到閑更多感覺到被瑣碎的工作、復雜的人際溝通“困住”,自比“流水線”上的女工、建筑工地的“包工頭”。有時,她意識到自己正身處AI最靠近未來的地方,會生發(fā)感慨。但這種念頭轉(zhuǎn)瞬即逝,她還得回到現(xiàn)實。
“這只是一份工作而已。”三水說,“我不擔心‘教會AI,餓死人類’,AI和人類已經(jīng)不在同一維度了。即使不被AI替代,也會被年輕人替代。人們到底在焦慮什么、擔心什么?”
(應受訪者要求,安迪、三水、劉到閑為化名)
?