“你能想象嗎?每個(gè)工作日,我一半以上的時(shí)間都要花在數(shù)據(jù)標(biāo)注上?!卑俣人惴üこ處熇钌迹ɑ└嬖V新京報(bào)貝殼財(cái)經(jīng)記者。


數(shù)據(jù)標(biāo)注是指對(duì)圖片、語(yǔ)音、文本、視頻中的數(shù)據(jù)進(jìn)行篩選、清洗、分類、注釋、添加對(duì)應(yīng)的標(biāo)簽。在進(jìn)行數(shù)據(jù)標(biāo)注的過(guò)程中,李杉一刻也不敢放松,因?yàn)樗钪獢?shù)據(jù)標(biāo)注的精準(zhǔn)程度會(huì)直接影響模型是否聰明好用。


數(shù)據(jù)是人工智能技術(shù)前進(jìn)的燃料,大量非結(jié)構(gòu)化的數(shù)據(jù),需要經(jīng)過(guò)標(biāo)注轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),系統(tǒng)才能識(shí)別。伴隨著自動(dòng)駕駛、大模型等尖端技術(shù)的興起,市場(chǎng)對(duì)高質(zhì)量數(shù)據(jù)標(biāo)注的需求迅速攀升。在政策層面,國(guó)家也愈發(fā)重視數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展。


日前,國(guó)家發(fā)改委等四部門發(fā)布《關(guān)于促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實(shí)施意見》(下稱《意見》),其中提出,到2027年,數(shù)據(jù)標(biāo)注產(chǎn)業(yè)專業(yè)化、智能化及科技創(chuàng)新能力顯著提升,產(chǎn)業(yè)規(guī)模大幅躍升,年均復(fù)合增長(zhǎng)率超過(guò)20%。培育一批具有影響力的科技型數(shù)據(jù)標(biāo)注企業(yè),打造一批產(chǎn)學(xué)研用聯(lián)動(dòng)的創(chuàng)新載體,建設(shè)一批成效明顯、特色鮮明的數(shù)據(jù)標(biāo)注基地,形成相對(duì)完善的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)生態(tài)。


時(shí)代在變,數(shù)據(jù)標(biāo)注行業(yè)也在變。從簡(jiǎn)單的識(shí)別能力到推理能力,再到其他專業(yè)能力的儲(chǔ)備,數(shù)據(jù)標(biāo)注師的從業(yè)門檻正在提升;從人工標(biāo)注到人機(jī)協(xié)同,數(shù)據(jù)標(biāo)注企業(yè)之間的競(jìng)爭(zhēng)轉(zhuǎn)向了技術(shù)維度,如何與細(xì)分行業(yè)做好結(jié)合顯得更為重要,技術(shù)壁壘將逐步提高,新一輪變革已經(jīng)開始了。


甩掉“低端”標(biāo)簽


簡(jiǎn)單容易上手、沒有門檻,任何人都可以成為一個(gè)數(shù)據(jù)標(biāo)注師。在大多數(shù)人的刻板印象中,數(shù)據(jù)標(biāo)注師和工廠里擰螺絲的流水線員工沒有什么差別,他們幾乎沒辦法和“白領(lǐng)”扯上關(guān)系,更別說(shuō)像人工智能這樣充滿科技感的前沿領(lǐng)域。


對(duì)圖片進(jìn)行標(biāo)記,識(shí)別人、機(jī)動(dòng)車、廣告牌等不同物體之后,數(shù)據(jù)標(biāo)注的工作就完成了,沒有過(guò)多的知識(shí)儲(chǔ)備也能快速適應(yīng)。9年前加入這個(gè)行業(yè)的劉吉對(duì)此感受頗深。“當(dāng)時(shí)還是以傳統(tǒng)機(jī)械學(xué)習(xí)為主,在長(zhǎng)文本方面,我們需要做的就是拆分關(guān)鍵詞,比如對(duì)美團(tuán)用戶的留言進(jìn)行分析,沒有過(guò)高的技術(shù)含量;圖片方面的需求集中在人臉識(shí)別,都很簡(jiǎn)單?!?/p>

2018年,深度學(xué)習(xí)成為推動(dòng)人工智能技術(shù)發(fā)展的主要方向,自動(dòng)駕駛也成了科技行業(yè)的焦點(diǎn),數(shù)據(jù)標(biāo)注行業(yè)在這個(gè)時(shí)候迎來(lái)了第一次爆發(fā)。在劉吉的記憶里,當(dāng)時(shí)市面上涌現(xiàn)了一大批做數(shù)據(jù)標(biāo)注的公司。


但這次爆發(fā)并沒讓數(shù)據(jù)標(biāo)注行業(yè)發(fā)生質(zhì)變,數(shù)據(jù)標(biāo)注師們需要處理的數(shù)據(jù)雖然變多了,但難度并沒有提升,也就是拖動(dòng)鼠標(biāo)選取圖片內(nèi)容,然后為選中的內(nèi)容打上不同的標(biāo)簽。各家公司比拼的關(guān)鍵,就是看誰(shuí)能給出更低的價(jià)格。


直到大模型的出現(xiàn),數(shù)據(jù)標(biāo)注行業(yè)的改變才真正開始。AI需要執(zhí)行多復(fù)雜的任務(wù),就需要多復(fù)雜的數(shù)據(jù)。“舉個(gè)例子,之前數(shù)據(jù)標(biāo)注的工作可能是識(shí)別一張圖片中的動(dòng)物是貓還是狗,但現(xiàn)在需要從更多的維度給這張圖片做標(biāo)簽,是貓、是寵物貓、是哪個(gè)品種、市場(chǎng)價(jià)格區(qū)間大概在多少,都需要更多的維度進(jìn)行分析?!崩钌颊f(shuō)道。


對(duì)于長(zhǎng)文本的分析,也不再僅僅是拆詞這么簡(jiǎn)單,還要解讀出這句文本背后的語(yǔ)義、情緒,有時(shí)還需要給用戶做出畫像。邏輯能力、推理能力已經(jīng)成為數(shù)據(jù)標(biāo)注師的“標(biāo)配”,他們的工作不再是“拉框”那么簡(jiǎn)單。


圖為劉吉供職的京數(shù)云數(shù)據(jù)標(biāo)注公司。


數(shù)據(jù)標(biāo)注不是一個(gè)新鮮事物,但是一個(gè)新的產(chǎn)業(yè)。在國(guó)家數(shù)據(jù)局對(duì)《意見》的解讀中,“自動(dòng)化”“專業(yè)化”“高端化”正在成為數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的新標(biāo)簽。劉吉在2019年創(chuàng)立了自己的公眾號(hào)“AI數(shù)據(jù)標(biāo)注猿”,2020年開始更新文章,通過(guò)開源共享分享行業(yè)知識(shí)。“我看好數(shù)據(jù)標(biāo)注行業(yè),同時(shí)也想記錄這個(gè)行業(yè)的變化,為行業(yè)發(fā)展貢獻(xiàn)一點(diǎn)自己的力量?!眲⒓f(shuō)。


從“單一”到“多元”


數(shù)據(jù)標(biāo)注因大模型翻紅,也因大模型而產(chǎn)生新的規(guī)則。


在行業(yè)發(fā)展初期,市面上以基礎(chǔ)大模型為主。經(jīng)過(guò)一年的發(fā)展,專業(yè)化垂直大模型成了新的趨勢(shì),落地和商業(yè)化是下一輪比拼重點(diǎn),因此數(shù)據(jù)標(biāo)注不僅要求高質(zhì)量,還要和業(yè)務(wù)匹配?!捌鋵?shí)不同部門對(duì)數(shù)據(jù)標(biāo)注的要求并不統(tǒng)一,還是和業(yè)務(wù)需求相關(guān),沒有一個(gè)固定的標(biāo)準(zhǔn)。”李杉解釋稱。


新京報(bào)貝殼財(cái)經(jīng)記者在和多位數(shù)據(jù)標(biāo)注行業(yè)從業(yè)者的對(duì)話交流中發(fā)現(xiàn),“業(yè)務(wù)導(dǎo)向”成了他們提及最多的詞匯。愷望數(shù)據(jù)創(chuàng)始人兼CEO(首席執(zhí)行官)于旭認(rèn)為,“數(shù)據(jù)其實(shí)是模型背后的生產(chǎn)力資源,當(dāng)小模型發(fā)展成大模型,再到大模型落地和應(yīng)用,對(duì)數(shù)據(jù)標(biāo)注的要求也逐步提高,是一種由輕加工向深加工轉(zhuǎn)變的過(guò)程。”


在第三方招聘軟件上,月之暗面發(fā)布的“AI數(shù)據(jù)標(biāo)注師”的職位要求為:本科及以上學(xué)歷,經(jīng)濟(jì)大類、新聞、國(guó)際關(guān)系等相關(guān)專業(yè)優(yōu)先;3年以上戰(zhàn)略、商業(yè)分析、咨詢優(yōu)先;有良好的數(shù)據(jù)分析和建模能力,有較好的邏輯思維和獨(dú)立判斷思維。


在職位描述上,要求理解金融財(cái)經(jīng)場(chǎng)景中用戶的訴求;負(fù)責(zé)實(shí)際應(yīng)用場(chǎng)景中金融財(cái)經(jīng)類數(shù)據(jù)的標(biāo)注和質(zhì)檢工作;基于數(shù)據(jù)需求,完成大模型數(shù)據(jù)構(gòu)建工作,設(shè)計(jì)規(guī)則標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)生產(chǎn)。


月之暗面為該崗位提供了不低的薪資待遇,一位“AI數(shù)據(jù)標(biāo)注師”的月薪最高可達(dá)四萬(wàn)元。與之對(duì)比,傳統(tǒng)數(shù)據(jù)標(biāo)注師的月薪在三千元左右,即使是管理崗或質(zhì)檢崗,六千元左右的薪資也與月之暗面的“AI數(shù)據(jù)標(biāo)注師”相去甚遠(yuǎn)。


“現(xiàn)在數(shù)據(jù)標(biāo)注師正處在從行業(yè)技能到職業(yè)技能的轉(zhuǎn)變過(guò)程中,職業(yè)的邏輯是對(duì)專業(yè)技能要求的提升?!眲⒓J(rèn)為。新京報(bào)貝殼財(cái)經(jīng)記者注意到,2020年2月,數(shù)據(jù)標(biāo)注員作為人工智能訓(xùn)練師的一個(gè)工種,被正式納入國(guó)家職業(yè)分類目錄。


這也對(duì)數(shù)據(jù)標(biāo)注公司的經(jīng)營(yíng)能力提出了更高要求?!霸缙诘臄?shù)據(jù)公司的確可以通過(guò)大規(guī)模對(duì)人的管理和運(yùn)營(yíng),將生產(chǎn)力規(guī)模提上去,只是下一階段的比拼更看重如何和產(chǎn)業(yè)、行業(yè)結(jié)合在一起,更快更準(zhǔn)落地?!庇谛裰赋?。


從拼價(jià)格到拼技術(shù)

“看到國(guó)家這么重視數(shù)據(jù)標(biāo)注行業(yè),我感到興奮的同時(shí),其實(shí)也更期待這個(gè)行業(yè)可以更加規(guī)范?!痹茰y(cè)數(shù)據(jù)總經(jīng)理賈宇航告訴新京報(bào)貝殼財(cái)經(jīng)記者。


在數(shù)據(jù)標(biāo)注技術(shù)含量并不高的階段,想要拿下訂單,低價(jià)是最有力的武器?!霸诳蛻裘媲埃覀儧]有什么議價(jià)能力,價(jià)格是他們是否選擇合作的唯一評(píng)判標(biāo)準(zhǔn)。”劉吉回憶稱。


為了降低運(yùn)營(yíng)成本,進(jìn)而在競(jìng)標(biāo)中拿出更有競(jìng)爭(zhēng)力的價(jià)格,數(shù)據(jù)標(biāo)注公司通常會(huì)開在人力成本和辦公場(chǎng)地租金較低的四五線城市。


當(dāng)數(shù)據(jù)標(biāo)注走向“自動(dòng)化”“專業(yè)化”“高端化”之后,比拼的維度也由低價(jià)競(jìng)爭(zhēng)轉(zhuǎn)向技術(shù)競(jìng)爭(zhēng)。

過(guò)去兩年,愷望數(shù)據(jù)的服務(wù)對(duì)象以自動(dòng)駕駛企業(yè)為主。于旭也在這個(gè)過(guò)程中看到了自動(dòng)駕駛行業(yè)存在的問(wèn)題,比如數(shù)據(jù)量不足、數(shù)據(jù)價(jià)格過(guò)低、數(shù)據(jù)匹配的標(biāo)準(zhǔn)化規(guī)則尚未形成等。


去年9月,北京亦莊智能城市研究院與愷望數(shù)據(jù)聯(lián)手打造的國(guó)內(nèi)首個(gè)“車路云”數(shù)據(jù)協(xié)同平臺(tái)正式發(fā)布并上線,該平臺(tái)專注于自動(dòng)駕駛車輛感知數(shù)據(jù)和智能交通場(chǎng)景,可提供智能數(shù)據(jù)應(yīng)用服務(wù)。


于旭希望該平臺(tái)通過(guò)集成數(shù)據(jù)存儲(chǔ)、監(jiān)管與再加工技術(shù),將數(shù)據(jù)通過(guò)生產(chǎn)線系統(tǒng)化的方式流通起來(lái),實(shí)現(xiàn)行業(yè)數(shù)據(jù)的共享與復(fù)用,這一創(chuàng)新形式通過(guò)把相似的數(shù)據(jù)整合,提高了個(gè)性化結(jié)果的生成效率。


云測(cè)數(shù)據(jù)則將自建標(biāo)注基地和專業(yè)人才儲(chǔ)備作為自己的核心競(jìng)爭(zhēng)力。賈宇航認(rèn)為,人工智能行業(yè)正在走向細(xì)分領(lǐng)域,專業(yè)化的趨勢(shì)加強(qiáng),有經(jīng)驗(yàn)的人處理過(guò)的數(shù)據(jù)會(huì)比沒有經(jīng)驗(yàn)的人更加專業(yè)。此外,云測(cè)數(shù)據(jù)還將提升數(shù)據(jù)流轉(zhuǎn)的效率,將打通與各個(gè)企業(yè)間的數(shù)據(jù)閉環(huán)作為主要發(fā)力點(diǎn)。


然而,數(shù)據(jù)標(biāo)注行業(yè)正處在發(fā)展初期,究竟哪種技術(shù)路線可以最終成功,還需要時(shí)間的驗(yàn)證。


多位受訪者都認(rèn)為,隨著數(shù)據(jù)產(chǎn)業(yè)的不斷發(fā)展,技術(shù)壁壘會(huì)更加凸顯。于旭記得,2022年剛開始創(chuàng)業(yè)時(shí),投資人出現(xiàn)了兩極分化,一類是完全沒聽過(guò)數(shù)據(jù)標(biāo)注,另一類是非常了解數(shù)據(jù)標(biāo)注,當(dāng)然,刻板印象也很深,認(rèn)為這就是一個(gè)人力密集型的行業(yè),沒有什么價(jià)值。但2023年和2024年,投資人的態(tài)度發(fā)生了明顯轉(zhuǎn)變。“尤其是國(guó)資背景的投資人,對(duì)我們?cè)絹?lái)越看重了?!?/p>

當(dāng)技術(shù)發(fā)展越來(lái)越快,也會(huì)伴隨著質(zhì)疑聲,例如,數(shù)據(jù)標(biāo)注師是否會(huì)被AI取代?多位受訪者的觀點(diǎn)是,具備專業(yè)背景的數(shù)據(jù)標(biāo)注師不僅不會(huì)消失,需求還會(huì)增加,但一些只會(huì)簡(jiǎn)單標(biāo)注的數(shù)據(jù)標(biāo)注師則會(huì)逐漸被AI取代。


正如于旭所說(shuō),“如果我們需要做一些與本地生活相關(guān)的業(yè)務(wù),比如出行業(yè)務(wù),那么,具有攜程或者飛豬工作背景的員工,也是我們非常需要的。”


新京報(bào)貝殼財(cái)經(jīng)記者 張晗

編輯 王真真

校對(duì) 劉軍 穆祥桐