免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
上千萬民工標注出來的今日頭條們

出品丨虎嗅科技組

作者丨石晗旭

編輯丨宇多田

題圖 | Vice Media

早上九點,劉吉手下20多個人就坐在各自的臺式機前,眼睛一眨不眨盯著屏幕,沒有任何交流。要不是手里來回移動的鼠標和屏幕點擊聲,外人會以為這些人統(tǒng)統(tǒng)陷入了“JPG模式”。

他們的屏幕上滿是文字,仔細看去,都是用戶給電商平臺的留言:

“我的貨還沒到”,“什么時候能發(fā)貨”,“周二可以發(fā)貨嗎”……

數(shù)據(jù)標注員熟練地給這些語句中出現(xiàn)的“語素”打上各種標簽,包括情感、詞性和用戶訴求。而這樣的句子,他們一天就要處理2000多條。

只有“學(xué)習”大量像這樣打好標簽的數(shù)據(jù),所謂的“AI客服”才能真正弄懂人類想表達什么,從而做出相應(yīng)的回應(yīng)。

實際上,無論我們聽到的AI技術(shù)有多酷炫,都無法掩蓋其認知水平還不如5歲小孩的事實。

現(xiàn)階段,讓AI提升認知世界能力的最有效途徑仍然是監(jiān)督學(xué)習,劉吉團隊正在做的數(shù)據(jù)標注是其中最基礎(chǔ)的一環(huán)。

就像教小孩子一樣,數(shù)據(jù)標注員通過打標簽的方式,將數(shù)據(jù)處理成AI能夠理解的特征。這些特征將指向一個結(jié)果,進而通過模型訓(xùn)練讓AI可以將特征與結(jié)果對應(yīng),從而完成對某一類事物的認知——

其實就是一個在人類看起來極為簡單的分類過程。

以自動駕駛為例,標注員們在圖像上框選出汽車、行人等物體輪廓,這些輪廓標簽反饋到AI訓(xùn)練模型后,無人汽車才能具備分辨周圍物體的能力。


而讓AI達到人類的認知水平,至少需要幾十億甚至幾百億樣本的喂養(yǎng)。這些樣本只能通過人工一點點的拉框、標點來獲得。

沒錯,智能的背后,是大量的人工。

像劉吉這樣的團隊,數(shù)據(jù)眾包平臺——莫比嗨客上還有30萬個。他們都是注冊在案的公司,平均有20~25個數(shù)據(jù)標注員,是一個個分布在貴州、河南、山西等地的小型數(shù)據(jù)工廠。根據(jù)中科院自動化所研究員王金橋的估算,全國從事這項工作的人已達到千萬級。

這些數(shù)據(jù)標注員有一個被圈內(nèi)人默認的外號:AI民工。

他們中的大部分人教育水平不高,在各省的貧困縣里,重復(fù)著單調(diào)的拉框、標點,像一臺臺每天高速運轉(zhuǎn)8~15個小時的機器。

在他們看來,這跟在田里、工地里工作最大的不同是能夠安穩(wěn)地窩在辦公室中——與其說是辦公室,不如說更像一間網(wǎng)吧。他們機械地忙碌著,拿著微薄的工資(月均不到3000元),全然不知自己參與的是值上千萬的高科技項目。

美國青年文化媒體Vice在2018年去中國農(nóng)村小鎮(zhèn)采訪蝸居在那里的青年數(shù)據(jù)標注員

如今,除了互聯(lián)網(wǎng)及人工智能創(chuàng)業(yè)公司外,越來越多的政府、學(xué)術(shù)機構(gòu)等對AI的投入也在迅速增長。據(jù)IDC、浪潮報告預(yù)估,2023年,中國人工智能基礎(chǔ)架構(gòu)市場將超過80億美金,未來五年年復(fù)合增?率達到33.8%。

但由于市場的分散,帶著需求的甲方們很難找到經(jīng)濟又實惠的解決方案,在效率、質(zhì)量、成本間難免有所取舍。

而對于大大小小的乙方們來說,拓展客戶資源本就不易。在服務(wù)客戶的過程中,依靠自己的能力兼顧團隊產(chǎn)能、任務(wù)期限、價格、交付質(zhì)量等環(huán)節(jié)毫無疑問是更大的挑戰(zhàn)。

此前曾被彭博等多家知名外媒報道的硅谷公司Scale AI正在通過人機協(xié)作解決這些痛點。

Scale開發(fā)的軟件可以實現(xiàn)對圖像等數(shù)據(jù)的自動化標注,標注員們在此基礎(chǔ)上進行審核及修改即可交付結(jié)果。

這款軟件實現(xiàn)了Scale首席執(zhí)行官Alexandr Wang提升數(shù)據(jù)標注效率的設(shè)想,“以往需要幾小時的任務(wù)現(xiàn)在只需要幾分鐘就能完成”。

在Scale的啟示下,莫比嗨客、格物鈦(Graviti)等眾包平臺也開始探索智能化提升數(shù)據(jù)標注效率與質(zhì)量的方式。他們正在將一部分的數(shù)據(jù)標注、任務(wù)分配、結(jié)果管理、激勵機制等環(huán)節(jié)交給AI完成。

去年,Scale完成1億美元融資,并達成近億美元的銷售額,在成立短短三年內(nèi)便躋身獨角獸行列。這不禁讓人期待,中國數(shù)據(jù)服務(wù)巨獸的崛起。

效率與質(zhì)量之痛

互聯(lián)網(wǎng)、AI公司及政府、學(xué)術(shù)等各類機構(gòu)的數(shù)據(jù)需求很難自給自足。

2017年,中國安防巨頭??低暼旯彩鄢?800多萬個攝像頭。如果這些攝像頭一年所能產(chǎn)生的數(shù)據(jù)總量是1500多萬PB,那么中國的所有數(shù)據(jù)中心加起來都存不下這么多數(shù)據(jù)。

這種爆發(fā)增長的非結(jié)構(gòu)化數(shù)據(jù),當然需要相當大規(guī)模的人工進行處理。

莫比嗨客創(chuàng)始人劉端陽告訴虎嗅,字節(jié)跳動在全國一共5萬多員工,其中在濟南、天津、武漢的數(shù)據(jù)標注員就占到了4萬人。

但字節(jié)跳動畢竟只是個例。

如果所有企業(yè)或機構(gòu)都在內(nèi)部建立動輒幾百人甚至上千、上萬規(guī)模的數(shù)據(jù)標注部門,承擔的人力成本將極為高昂。而且一旦需求斷檔,這些閑下來的人員如何安排也是很大的問題。

所以,越來越多的公司正在選擇成為甲方,將數(shù)據(jù)需求通過外包解決。一方面,可以交給有能力控制整個流程的數(shù)據(jù)工廠,如管理5000標注員的Testin云測;

另一方面,可以通過眾包平臺轉(zhuǎn)接給分散的從業(yè)者們,如百度眾包、京東眾智等。

京東眾智數(shù)據(jù)標注平臺

但問題隨之而來。

前者雖然可以統(tǒng)一地把控交付結(jié)果,但成本依然偏高,且其規(guī)模仍舊受限,只能在一定周期內(nèi)滿足一部分需求;

后者將大任務(wù)拆分成若干個小任務(wù)進行分配的做法固然實用,但由于供應(yīng)商或兼職標注員的良莠不齊,對數(shù)據(jù)標注的完成度和準確率均存在極大考驗。

前Uber自動駕駛工程師崔運凱回國后所在的第一家公司就深受其害。

2018年下半年,他們帶著訓(xùn)練模型的任務(wù)找來了國內(nèi)12家數(shù)據(jù)標注供應(yīng)商。了解需求后,只有2家表示有接這單的能力。崔運凱選了價格便宜的一家。

沒成想,這家公司不理解數(shù)據(jù)的最終需求就算了,連基本的標注工具都沒有,竟然用Photoshop在圖片上拉框。而圈內(nèi)人都知道,AI只能接受CSV、XML、JSON等特定格式的數(shù)據(jù)。

“這(用PS)輸出的格式能給AI用么?”他向虎嗅吐槽。

甲方到底要什么?乙方們也在暗自揣度。

隨著AI應(yīng)用的加速落地,數(shù)據(jù)工廠們已經(jīng)清楚地認識到,報價低和提交的標注結(jié)果數(shù)量不再那么重要,準確率能否超越95%,達到97%、甚至99%才是自己活下去的命脈。

也就是說,甲方對數(shù)據(jù)質(zhì)量和效率的要求早已凌駕于成本之上。

從這個角度來看,行業(yè)的缺口仍然很大。劉端陽創(chuàng)辦莫比嗨客也是因為看到這樣的機會。

“每年中國這個市場的規(guī)模差不多有三四百億。但從數(shù)據(jù)采集和標注的角度研究,國內(nèi)的公司其實沒有做得特別好的。”

本來想繼續(xù)做AI應(yīng)用創(chuàng)業(yè)的崔運凱也決定切入機器學(xué)習基礎(chǔ)服務(wù)市場,成立AI數(shù)據(jù)服務(wù)平臺格物鈦智能科技。

“只有先解決這些痛點,用更自動化的方式提供數(shù)據(jù)服務(wù),才能為AI創(chuàng)業(yè)者提供更好的基礎(chǔ)設(shè)施。”他說。

小型玩家難以自救,用AI反哺數(shù)據(jù)標注的平臺方應(yīng)運而起。

今日頭條的啟示

由于行業(yè)不同,自動駕駛、醫(yī)療AI、新零售公司對數(shù)據(jù)標注的任務(wù)要求也截然不同;而眾包平臺另一端,接單方也各有所長。要他們找到合適的彼此,無異于大海撈針。

這帶來的另一個后果是,接單方出于生存需求拿來任務(wù)就做,數(shù)據(jù)標注的質(zhì)量難以得到保證。

如果將這一匹配的過程智能化,今日頭條的內(nèi)容推薦系統(tǒng)是個很好的參考——它總是在判斷你想要看什么,而且似乎越來越準。

這也是劉端陽構(gòu)想中莫比嗨客進化為智能化眾包平臺的第一步:打造智能化的任務(wù)推薦系統(tǒng)。

因此,在莫比嗨客上線初期,劉端陽用公開的任務(wù)對每一個入駐的數(shù)據(jù)標注團隊進行測試,根據(jù)結(jié)果從專業(yè)領(lǐng)域、標注速度、完成質(zhì)量等維度對每一個團隊內(nèi)的每一個數(shù)據(jù)標注員進行能力畫像與評價。

另一端,劉端陽也給任務(wù)打上相應(yīng)的標簽:任務(wù)內(nèi)容是圖像、音頻、或文本,標注的是人臉、物體還是動作……

之后再通過一定的算法,便能實現(xiàn)標簽相同或相似的任務(wù)方與接單方的匹配。且隨著平臺客戶、接單方兩端數(shù)量的增加,算法將迭代得更為準確。

去年8月開始做AI數(shù)據(jù)服務(wù)平臺Graviti時,崔運凱也發(fā)現(xiàn)了標注員之間的極大差別:

“有一些特別喜歡打游戲的男生,手速特別快,他在做標注的時候有可能比另外一個人要快五倍,而且質(zhì)量特別特別高。通過算法來自動分發(fā)任務(wù),就可以把最好的任務(wù)分發(fā)給最擅長的人?!?/p>

這種任務(wù)推薦系統(tǒng)對接單方也很友好。

他們省去了部分自己挖掘客戶的人力與時間成本,可以更多投入任務(wù)本身。大大小小數(shù)據(jù)標注公司的老板接到任務(wù)后,也不再用親自給員工逐一分配工作,因為系統(tǒng)將直接定位到人。

劉端陽將這種模式稱為眾包2.0——

經(jīng)過智能化的匹配,甲方的需求可以得到更好地滿足,愿意為此買單,付給平臺傭金。而乙方也能勞有所值,更積極地在平臺上接單。

現(xiàn)在,劉吉每天醒來后不再先為談客戶而焦慮,而是打開莫比嗨客的后臺,看看今天團隊要處理多少任務(wù)。

莫比嗨客接單團隊負責人的后臺界面 / 受訪者供圖

但匹配還只是整個鏈條的第一環(huán)。

就算任務(wù)分發(fā)極為精準,平臺也難以避免接單方出現(xiàn)拖延等各種意外情況。雖然甲方有權(quán)減少甚至不支付酬金,但平臺很難保證這些問題不會再次出現(xiàn)。

因此,在接單過程中,獎懲機制的動態(tài)變化也是十分必要的。

在Graviti平臺中,除了對接單方初始能力的掌握,崔運凱還通過模型不斷監(jiān)測接單方在實際任務(wù)中的能力。

譬如,Graviti采用的獎勵模式類似Bing、滴滴,對在線時間長、工作質(zhì)量一直較高的接單方提供額外的獎勵。

理想狀態(tài)來看,這將是一個良性循環(huán)——接單方的良好表現(xiàn)使之得到更高的報酬,更高的報酬又促使他繼續(xù)在平臺接單。若平臺借此留住優(yōu)質(zhì)的接單方,則平臺也可以獲得更高粘性的客戶。

但相比Graviti這種需要一定時間積累的獎懲方式,莫比嗨客的做法更為直接,將獎懲直接體現(xiàn)在了任務(wù)分配的過程中——

假如現(xiàn)在平臺上的一個項目有5000萬張圖片需要標注,系統(tǒng)會將其自動打散成5萬個任務(wù)組,根據(jù)平臺畫像匹配后,將任務(wù)推薦給符合要求的接單方。

被派單的人可以選擇拒絕,但一旦接單,必須要在15分鐘內(nèi)完成10張圖片(莫比嗨客打包的最小單位)的試標注;如未完成,任務(wù)將直接自動推薦到下個公司。

而正式標注的過程,莫比嗨客也會用極為嚴格的Deadline要求接單方:一個任務(wù)包,最多延后10個15分鐘,即2.5小時。未完成的話,任務(wù)將重新分配。接單方不僅將顆粒無收,還將面臨信用降級,影響日后的派單。

用AI取代“AI民工”

不過在這里需要提醒大家,即便流程進化得再智能,以“數(shù)據(jù)標注員”為核心的數(shù)據(jù)標注產(chǎn)業(yè),依然要受制于人工的天花板。

畢竟相比于AI,人工輸出的結(jié)果無法完全統(tǒng)一,運算能力也十分有限。

一旦智能化的數(shù)據(jù)標注能夠替代人工,這意味著數(shù)據(jù)量和質(zhì)量指數(shù)級的提升,算法成熟得更快,對數(shù)據(jù)服務(wù)行業(yè)乃至整個AI產(chǎn)業(yè)來說都將是一個極大的里程碑。

也正因如此,開發(fā)一款能夠?qū)崿F(xiàn)自動化數(shù)據(jù)標注的工具才是這些玩家們真正的競速賽道。

如今,莫比嗨客先運用AI技術(shù)對一些不復(fù)雜的常見圖像任務(wù)進行預(yù)標注,再分配給接單方審核、完善并交付結(jié)果。

這樣一來,平臺上數(shù)據(jù)的流轉(zhuǎn)速度提升許多。

“同樣是2000張醫(yī)療影像圖片(的標注),我們半天時間就可以交付,一般的平臺可能要一周”,劉端陽告訴虎嗅。在劉端陽的統(tǒng)計中,平臺效率的提升可以為客戶節(jié)約20%的成本。

目前,莫比嗨客服務(wù)的客戶包括騰訊、華為、抖音、科大訊飛等,業(yè)務(wù)覆蓋自動駕駛、醫(yī)療影像、人臉識別和新零售等各個領(lǐng)域。

峰值時,莫比嗨客單天接到2億6000多張圖像的標注任務(wù),日均圖片任務(wù)量在7000萬~8000萬左右。去年全年,平臺流水達到2億元。

而晚一年入行的崔運凱也在加緊訓(xùn)練自己的AI標注模型。

Graviti官網(wǎng)

相比于其他外包形式,他表示當下Graviti可以將效率提升5倍以上。

“理論上限是可以提高150倍。”但他坦承,AI還不能達到同人工一樣的準確率,算法仍需要在精確度和召回中做平衡。

獨角獸正在路上

去年4月創(chuàng)辦Graviti時,崔運凱憑借幾個對數(shù)據(jù)標注產(chǎn)業(yè)進行改進的優(yōu)秀設(shè)想,拿到了紅杉、真格、云啟、風和的千萬美元級投資。而再往前一年,投資界大佬,梅花創(chuàng)投創(chuàng)始合伙人吳世春承包了莫比嗨客的天使輪。

投資大佬們雖然在這個領(lǐng)域的動作還不大,但這種試探似乎透露著趨勢的到來。

確實,在AI爆發(fā)式增長的這幾年間,作為基礎(chǔ)服務(wù)之一的數(shù)據(jù)標注市場規(guī)模增長迅速。當下中國80億美元的AI基礎(chǔ)架構(gòu)市場,和33.8%年復(fù)合增長率極為誘人。

而莫比嗨客上線近兩年間,劉端陽從客戶一端也感受到了市場的這種張力。

“一些A輪左右的初創(chuàng)公司每年數(shù)據(jù)標注預(yù)算差不過二三十萬,D輪的都是千萬以上。去年,騰訊只是在微信公眾號文章審核上的預(yù)算,就是26個億?!?/p>

高速增長的市場引來了互聯(lián)網(wǎng)巨頭的關(guān)注,這個賽道中不乏百度眾包、京東眾智的身影。

大廠的這種操作既能滿足內(nèi)部需求,對外又能創(chuàng)收,還能在數(shù)據(jù)標注市場中站下腳跟,等風起后,又能依靠自身的資源優(yōu)勢迅速擴張,算盤打得很響。

但與大而全相比,后起者都各懷絕技。

莫比嗨客從醫(yī)療AI起家,在CT片、病理細胞圖像、病例文本已經(jīng)形成了先發(fā)優(yōu)勢;Graviti平臺則在崔運凱基因的影響下,長于自動駕駛領(lǐng)域。

與行業(yè)的緊密聯(lián)系,對創(chuàng)業(yè)公司來說就是深入客戶其他需求的開始。

“我們在服務(wù)甲方時,還會做很多咨詢工作,包括參與他們的系統(tǒng)架構(gòu)設(shè)計。我們天然和甲方的信任關(guān)系會比普通公司要強,因為我們本身就是speak the same language?!贝捱\凱告訴虎嗅。

美國數(shù)據(jù)標注的競爭格局較國內(nèi)形成更早。除了Scale AI這家新晉獨角獸外,Uber收購的Mighty AI、亞馬遜的自動標注服務(wù)以及如Hive、Alegion等初創(chuàng)公司也想分下一杯羹。

而知名風投Accel與Peter Thiel的Founders Fund之所以更看好Scale AI,是因為他們認Scale的工具更先進,可以更快又更便宜地完成數(shù)據(jù)標注。也正因如此,Scale的軟件去年全年能賣到近億元的銷售額。

Scale AI年僅23歲的創(chuàng)始人Alexandr Wang

據(jù)此,我們不難推測,如果國內(nèi)某一家數(shù)據(jù)服務(wù)公司能夠在這場智能化競速中率先推出高精度的數(shù)據(jù)標注AI,真正讓交付效率和質(zhì)量實現(xiàn)飛躍,就能從一眾公司中脫穎而出。

畢竟,這是將數(shù)據(jù)標注標品化的過程,而標品是規(guī)?;那疤帷?/p>

如今,鮮為人知的數(shù)據(jù)標注市場已悄然在美國孕育出了一只獨角獸,中國市場卻還一片朦朧。但在數(shù)以千萬計的人員規(guī)模、指日可待的千億市場的召喚下,中國獨角獸也理應(yīng)破土而出。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
真格天使項目Graviti獲千萬美金級PreA輪融資
Uber 前無人駕駛工程師告訴你,國內(nèi)無人駕駛之路還要走多久?
UC伯克利聯(lián)手Waymo等發(fā)起自動駕駛預(yù)測挑戰(zhàn)賽,CVPR揭曉結(jié)果
數(shù)據(jù)集查找神器!1000 個機器學(xué)習常用數(shù)據(jù)集都匯總在這了
對話「洛可可」創(chuàng)始人賈偉:AIGC不是浪潮,它本身就是一個新時代
社交電商助“中國智造”賣全球
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服