刺猬公社(ID:ciweigongshe)和何信通話的時候,他正在做數(shù)據(jù)標注的工作。
電腦屏上的圖片里,三三兩兩的人在操場上,或是在跳繩,或是在圍觀。何信要做的是用鼠標將正在跳繩的人框出來?!罢f出來你可能都不相信,就是畫這一個框。”何信解釋道,“好比你現(xiàn)在打開電腦,然后摁住鼠標右鍵拉一下,在桌面上就是一個框就是3分錢?!?/span>
何信在做數(shù)據(jù)標注工作,何信供圖
何信做數(shù)據(jù)標注的工作有一年多,他自己成立了一個創(chuàng)業(yè)小團隊,團隊里有十幾個人。他們的項目涉及百度、網(wǎng)易、阿里等互聯(lián)網(wǎng)大廠,他也做細致的“打點”工作,類似一個鞋的邊框打點一周,二十幾個點,掙一到兩角錢。
“阿里眾包、京東微工、百度眾測、有道眾包……”市面上這樣的產(chǎn)品有很多,利用碎片化時間獲得收入、操作簡單無門檻是它們最主要的賣點。這類互聯(lián)網(wǎng)大廠推出兼職平臺,主要以眾包的形式給用戶分配任務(wù),用戶通過完成任務(wù)來獲得報酬。但相較這些大廠的知名產(chǎn)品而言,兼職平臺們的下載量并不高。
刺猬公社查詢產(chǎn)品下載量統(tǒng)計平臺七麥數(shù)據(jù)后發(fā)現(xiàn),AppStore中阿里眾包、騰訊搜活幫、京東微工、百度眾包等四款產(chǎn)品,近30日日均下載量未超過2000。
圖源:七麥數(shù)據(jù) 查詢時間:2021年4月27日
從產(chǎn)品數(shù)據(jù)上看,互聯(lián)網(wǎng)大廠的兼職App只能說不溫不火。在靈活用工、兼職經(jīng)濟高度發(fā)展的當(dāng)下,這類兼職App為什么沒做起來?都是誰在做這份工作?
互聯(lián)網(wǎng)大廠出品的兼職APP中,運作流程是:平臺發(fā)布任務(wù),用戶領(lǐng)取任務(wù)驗收后獲得收益。綜合各平臺來看,主要有數(shù)據(jù)標注、數(shù)據(jù)采集、數(shù)據(jù)轉(zhuǎn)寫工作。細分到具體領(lǐng)域,又分為文本、圖片、語音、視頻等部分的信息處理。任務(wù)的價格一般在0.1元到幾十元不等。
在騰訊搜活幫里,李元接了十幾單任務(wù),賺了不到兩塊錢。
放棄倒不是因為錢少,而是因為這份工作過于機械化,重復(fù)性勞動讓李元很不適應(yīng)。他大學(xué)讀的是電子信息工程專業(yè),畢業(yè)后工作也比較清閑。出于賺錢和打發(fā)時間的目的,李元下載了這款眾包類型的軟件。
眾包,通俗來講,就是從大眾那里尋找資源。它本意是指一個公司或機構(gòu)把過去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的(而且通常是大型的)大眾志愿者的做法。
以京東微工的數(shù)據(jù)標注為例,在最新一期的任務(wù)里要求對文本進行情感判斷,根據(jù)自己的認知選擇文本是正向、中性還是負面。該結(jié)算兩分一條,以10條為結(jié)算單位,要求正確率100%。
數(shù)據(jù)采集一般為音頻、圖片、視頻方面的采集,周舟熱衷于做數(shù)字采集方面的工作,2019年高中畢業(yè)后,他開始嘗試這方面的兼職工作。兩年的時間,他陸陸續(xù)續(xù)賺了3000多。“我也沒有天天去看,阿里眾包在年終、年初、年底的任務(wù)很多?!?/span>
在每個任務(wù)里,都有明確的要求,周舟認為這樣很明確,可以很快地分辨哪些好做哪些不好做。
相比于數(shù)據(jù)標注、采集方面的工作,數(shù)據(jù)轉(zhuǎn)寫的門檻稍微高些。所謂的數(shù)據(jù)轉(zhuǎn)寫,主要是各種語言轉(zhuǎn)譯工作,比如,在有道眾包的少兒英語段音頻轉(zhuǎn)寫里,要求口誤重復(fù)、語法錯誤等如實轉(zhuǎn)寫,這對于答題者的英語水平要求不低。
下載軟件發(fā)現(xiàn)無任務(wù)可做,做任務(wù)時發(fā)現(xiàn)門檻過高,任務(wù)完成發(fā)現(xiàn)審核太久,審核后發(fā)現(xiàn)正確率不合格……在這條任務(wù)鏈里,用戶會遭遇各樣的問題,有網(wǎng)友在五個任務(wù)都審核失敗后發(fā)文稱“費力不討好。”
部分平臺審核不合格后,價格會打折扣。但還是有人賺到錢了,在有道眾包的3月酬勞排行榜上,第一名酬勞1945.99元。周舟對于自己兩年多攢的3000多元表示滿意,“因為目前還是在校生,沒有工作?!?/span>
“一小時10元吧?!?/span>何信評估了一下做眾包工作的平均報酬。
兼職眾包的平臺用戶,有一種團隊化的趨勢。
就目前市面上的眾包產(chǎn)品來看,任務(wù)很多是不定期推送的,新用戶注冊后平臺上有可能面臨無任務(wù)可領(lǐng)的情況,而相較于加公會做團隊而言,普通用戶賺的錢是很少的。
而這份工作的主力,互聯(lián)網(wǎng)巨頭們可能也并沒有瞄準客戶端的普通用戶。據(jù)何信了解,向他這樣做團隊接項目的同行有不少,在平臺活躍著的也有很大部分是像他們這樣的團隊。
相比于單獨個人當(dāng)兼職做,團隊化容易的多。價格在近些年也有了不小的變化,以前價格很貴,現(xiàn)在的價格越來越低,由此帶來用戶的不斷往下沉淀。何信表示用戶下沉是要找便宜的勞動力。
2016左右,那時候做數(shù)據(jù)標注的人還不是很多,何信說那時候價格是目前兩到三倍,畫一個框大概七八分錢。
“以前做的人少就掙錢,現(xiàn)在做的人多了就不值錢了,就這個意思。”兼職眾包的用戶們,也在不可避免地遭遇內(nèi)卷。
在何信團隊里,一個成熟的員工一小時能畫600個框,按照一個框3分的標準,能賺18元。“但是這個價格是我完全不賺錢?!焙涡耪f。而3分的價格在面向用戶的平臺里很少出現(xiàn),在用戶平臺端三分的價格算是很高的。何信找的熟人介紹做項目,一般接一個項目幾千上萬的量,然后做上一個月。
這個行業(yè)流動性很大,重復(fù)性勞動和越來越低的價格讓很多人止步于此。何信的團隊不算大,上個月還是五六個人。來的員工一般都是學(xué)生,兼職在做這份工作。五六個兼職的同學(xué)才能留下一個,何信對自己團隊流動習(xí)以為常。
“一開始不熟悉業(yè)務(wù),做不了那么快,幾乎就賺不了什么錢,完全看自己做的數(shù)量?!焙涡沤忉寛F隊流動大的原因。
除了數(shù)據(jù)標注,何信的團隊也做過涉及語音轉(zhuǎn)義、數(shù)據(jù)采集等方面的工作,兩三歲孩童的語音、粵語、陜西話的轉(zhuǎn)義他們都做過。語音轉(zhuǎn)義一般來說三分鐘能給到七塊左右,數(shù)據(jù)采集工作相對來說賺的更多,但過于費時費力,這塊業(yè)務(wù)也慢慢擱下了。
“車道線、車、人臉,人體……”何信做的數(shù)據(jù)標注類目有很多,但都是二維的。數(shù)據(jù)標注的同行們有的在做三維標注,這樣的工作日薪能達300元左右。
圖源:百度眾測
但這樣的薪資并不是普遍化的,簡單重復(fù)性的二維圖片數(shù)據(jù)標注工作薪資并沒那么可觀。
小作坊的出現(xiàn),是數(shù)據(jù)標注團隊的一個大趨勢。何信對于這份工作的人有大概的畫像。在城鄉(xiāng)結(jié)合部,或者鄉(xiāng)村小作坊,有那么一批人,二三十歲,學(xué)歷不是很高,就在縣城做這樣的工作。而很多人也有投資這種數(shù)據(jù)小作坊的打算。
“我就形容它是網(wǎng)絡(luò)時代的那種手工作坊?!?/span>何信對這種城鄉(xiāng)結(jié)合部的小作坊下了一個定義。
“網(wǎng)絡(luò)時代的民工?”
“完全就是民工了,這不是調(diào)侃?!?/span>
互聯(lián)網(wǎng)大廠,為什么需要人兼職訓(xùn)練AI
“訓(xùn)練AI啊。”
何信很明確的知道自己所做的工作,電子信息工程專業(yè)的李元也知道這份工作的意義,“平臺給你提供的題目相當(dāng)于是一個訓(xùn)練的樣本。所有你做的題目就是AI的訓(xùn)練集,它會通過人類的這種思維判斷去訓(xùn)練AI?!?/span>
“能知道的只有他(平臺)告訴我的。具體數(shù)據(jù)去哪了,用于什么了,沒有去深究?!敝苤壑恢榔脚_告知的信息,在阿里眾包的一個任務(wù)中顯示,您接受的任務(wù)中涉及對個人信息的收集,任務(wù)發(fā)布者承諾在此任務(wù)中收集到的個人信息將會用于“算法訓(xùn)練——牙齒病種識別”的目的,并僅限于任務(wù)發(fā)布者使用,并不向任何第三方轉(zhuǎn)讓、共享以及披露,匿名化或去標識化的除外。
“我們要教機器認識一個蘋果,你直接給它一張?zhí)O果的圖片,它是完全不知道這是個什么東西的,需要現(xiàn)有蘋果的圖片,上面標注著“蘋果”兩個字,然后機器通過學(xué)習(xí)了大量的這類圖片,才能認識蘋果,其中將圖片表示為“蘋果”的工作就是數(shù)據(jù)標注?!?/span>
騰訊搜活幫用上述例子,說明了數(shù)據(jù)標注的意義。數(shù)據(jù)標注員的工作就是在教機器學(xué)習(xí)。
人工智能包含著機器學(xué)習(xí),而監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)的一種訓(xùn)練方式,通俗來講,是要給機器一種標準答案來不斷進行訓(xùn)練,以此來達到人類一些識別認知的能力,這也是深度學(xué)習(xí)的一個目標。深度學(xué)習(xí)的成功所依賴的既不是算法,也不是計算能力,而是訓(xùn)練和驗證數(shù)據(jù)的可用性,這些數(shù)據(jù)最終是通過人的參與獲得的。
這是一個非常重復(fù)性的勞動,因為機器學(xué)習(xí)需要大量的樣本,大量的樣本是由無數(shù)重復(fù)性勞動所造就的。
而這種重復(fù)性勞動在很早之前就有了。2003年,一款“ESP游戲”就用了這種勞動,它的目的是通過互聯(lián)網(wǎng)上人們的自由參與來獲得描述圖像的標簽。在一個游戲中,兩個玩家在屏幕上看到相同的圖像,并被提示輸入描述該圖像的關(guān)鍵字。他們看不到對方正在鍵入什么,但如果兩人輸入相同的關(guān)鍵字足夠快(“匹配”),他們就會得到分數(shù)。實際上,這些關(guān)鍵字可以用作圖像的精確標簽?!癊SP游戲”后來被谷歌收購,被稱為谷歌圖像標簽。
不止人工的重復(fù)性勞動,驗證碼也是訓(xùn)練機器的一種方式。驗證碼本身是在人機交互中構(gòu)建,以驗證用戶實際上是“人工用戶”的工具。reCAPTCHA公司擴展了這一原則,將人類用戶的反應(yīng)重新用作工業(yè)深度學(xué)習(xí)項目的培訓(xùn)數(shù)據(jù)。為此,用戶需要解決一個小任務(wù),如圖像識別或文本識別,這對人類來說是一個低的障礙,但對計算機機器人來說是一個高的障礙。而reCAPTCHA也被谷歌收購了。
科技自媒體“品玩”曾報道過類似的現(xiàn)象,驗證碼越來越有內(nèi)容,比如標注門牌路牌,讓用戶幫分類數(shù)據(jù)庫等?!捌吠妗币仓赋鲈?reCAPTCHA 官網(wǎng)上,Google 公開說明了 reCAPTCHA 集眾人之力標注數(shù)據(jù),訓(xùn)練 AI 的“眾包”模式。
網(wǎng)絡(luò)中識別圖片的驗證碼
在重復(fù)性勞動不斷減少的當(dāng)下,何信準備謀求新的出路。他的同行朋友們已經(jīng)開始在做簡單的數(shù)據(jù)AI,讓簡單型的數(shù)據(jù)標注工作交給機器來操作。
用機器做出來的訓(xùn)練集來訓(xùn)練機器,是一個有意思的事情。
在城鄉(xiāng)結(jié)合部,一批二三十歲的人正在批量生產(chǎn)著AI訓(xùn)練集,重復(fù)是他們工作的常態(tài)。也正是因為如此,工作枯燥、報酬微薄,充斥著“訓(xùn)練AI”任務(wù)的眾包兼職平臺相當(dāng)乏味,勸退了不少被兼職平臺大廠背景所吸引的用戶。
而隨著AI和機器的不斷自我訓(xùn)練和進化,AI訓(xùn)練AI就在不遠的未來,這類平臺的未來可能性將會更小。
備注:以上何信、李元、周舟均為化名
參考資料:
《Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning》,Rainer Mühlhoff