久久一区二区精品,亚洲综合久久久久久中文字幕,国产综合精品一区二区,日韩欧美久久一区二区,综合欧美国产视频二区,亚洲国产欧美日韩精品一区二区三区,亚洲一区二区综合

數(shù)據(jù)折疊
咖啡貓 2018-07-11 15:14:47

為推動智能時代的巨輪滾滾向前,AI行業(yè)需要龐大的、標注好的數(shù)據(jù)作為養(yǎng)分。這些數(shù)據(jù)大多出自一些學歷不高的人,他們是“人工智能背后的人工”。

人工智能暗角

在人工智能的世界里,存在不為人知的“數(shù)據(jù)折疊”:一邊是炫酷科技、智能應用層出不窮的光鮮表象;一邊是大量人工拿著不高的工資,埋頭生產(chǎn)機器學習的“食物”,即標注好的數(shù)據(jù)。

例如,由北郵和華騰碩博合辦的300人規(guī)模的電子商務培訓班,其中近一半的人都會兼職數(shù)據(jù)標注項目。他們多是18歲左右的學生,每天盯著電腦屏幕給圖片拉框,做著枯燥的工作,而標注好的數(shù)據(jù)將用于炫酷的無人駕駛項目。他們一個月的收入在2 000元左右,如果全職做,收入能有4 000~5 000元。

培訓班學員參與的標注項目多是“外包”。某數(shù)據(jù)標注主管說,2011年AI數(shù)據(jù)標注項目的外包市場剛打開,2015年才開始發(fā)展,緊接著2016年下半年出現(xiàn)收縮,到了2017年又有了新一輪的爆發(fā)。

最近的這次爆發(fā)與人工智能行業(yè)的發(fā)展有關。大量人工智能機器落地后,為了投入實戰(zhàn),需要進行深度學習,于是整個行業(yè)對數(shù)據(jù)的需求量增大。但非結構數(shù)據(jù)需要經(jīng)標注后才能使用,這意味著需要大量人力完成數(shù)據(jù)標注工作。

不過,創(chuàng)業(yè)團隊和巨頭公司為了集中精力開展研發(fā),或保持團隊的高學歷占比,很少選擇完全自建數(shù)據(jù)標注團隊。因此,BAT、人工智能創(chuàng)業(yè)公司,學術團體,以及政府、銀行等機構都可能成為“發(fā)包方”,將數(shù)據(jù)標注工作外包出去。

在“外包方”一端,有 “眾包”和“工廠”兩種模式。前者是把任務通過平臺轉接給網(wǎng)民,如“百度眾包”“京東眾智”“龍貓數(shù)據(jù)”;后者要么是正規(guī)的機構,要么是20人以下規(guī)模不等的“小作坊”,它們接到項目后會負責數(shù)據(jù)標注的所有流程。

總體來看,數(shù)據(jù)標注是“勞動密集型”的中低收入行業(yè),大多散落在三四線城市,而愿意做這行的人,大多把數(shù)據(jù)標注當成外賣、快遞行業(yè)的替代品。

例如,在距離貴陽市中心50公里的百鳥河數(shù)字小鎮(zhèn),就有一個規(guī)模500人的“數(shù)據(jù)工場”。在這500名標注員中,近一半來自附近一家扶貧高職的學生。

這些學生很珍惜這個兼職機會,因為每月能掙1 500元,足以自立,省吃儉用還能補貼家庭,而且數(shù)據(jù)標注不用在戶外經(jīng)受日曬雨淋,相對輕松且體面。

但未來工作前途的不可預期,相對低的收入,較大的家庭負擔,仍然是這些年輕人無法擺脫的苦惱。

野蠻生長,坑與機會并存

數(shù)據(jù)標注是一個勞動密集型行業(yè),進入門檻并不高。因此,許多公司就通過壓低“成本”“薄利多量”開展競爭。

據(jù)記者了解,許多專職數(shù)據(jù)標注的公司大多通過招聘臨時工來省去五險一金的人力成本,因此,僅憑7~8萬元的啟動資金,就可以在縣級小城組起一個“工作室”。

另一方面,AI公司也傾向壓低成本——某數(shù)據(jù)標注外包公司主管表示,部分AI公司不夠重視數(shù)據(jù)標注,因此在壓低項目總體預算時,會選擇把數(shù)據(jù)標注工作外包給一些不靠譜的團隊;但這些團隊做不下來,又會把任務轉包給另一些小團隊,或重新找到大的數(shù)據(jù)標注公司,直接影響最終質量和交付期限。

“低價競爭和行業(yè)不規(guī)范導致的層層外包是行業(yè)的噩夢。”京東眾智平臺的負責人李工認為,除此之外,外包直接折損了小團隊的利潤。

例如,何軍就在2017年底投入10萬元,在河南周口成立了一個40人團隊的數(shù)據(jù)工作室。

“利潤其實不高,”何軍細細算賬,“一個拉框值4分錢,一個標注員一天能做大約4500個,但過關率只有90%,實際只有160元左右,再除去審核的成本,再給每個標注員每天發(fā)110元左右的工資,平均下來工作室每天也就從每個人身上賺30元吧。”何軍一直接的是二手項目,第一個月虧了本,第二個月勉強持平,因此,他希望在2018年“爭取接到一手項目”。

事實上,小團隊只能接二手甚至是好幾手的項目,一手項目就像江湖傳說,聽過沒見過。

另一方面,大平臺也反感層層外包。畢竟要完成一些特定的復雜任務,需要對人員進行長達1~3個月的培訓,但是由臨時工組建而成的小團隊大多做不到;不僅如此,許多小團隊在理解客戶需求、保證數(shù)據(jù)的多樣性、隨機性上,也欠缺足夠的能力。

在這之中,還有一個角色在攪渾水——代理人。代理人就是拉項目跑活的人。一些小公司會高薪養(yǎng)代理人,以期打通中國人情社會中的關鍵節(jié)點。

而數(shù)據(jù)標注行業(yè)在經(jīng)歷了早期瘋狂生長后,最終一定進入洗牌時期,屆時,行業(yè)變得更為規(guī)范化、透明化,數(shù)據(jù)標注的質量會成為需求方最優(yōu)先考慮的變量。

大浪淘沙,最終會有兩類機構留下來:注重質量及服務的中小型數(shù)據(jù)標注公司,以及自有整套數(shù)據(jù)技術的平臺。

還有5年,只有5年

由于對技術動向缺乏把握,何軍時常處于一種對未來的不安之中。于是,當他聽聞“算法升級后,將不再需要大量人工標注”時,便緊張起來。

但數(shù)據(jù)服務商BasicFinder的CEO杜霖則認為,數(shù)據(jù)標注的市場才剛打開,未來5年內(nèi),數(shù)據(jù)需求將緊隨人工智能的大規(guī)模落地,引來一波爆發(fā)式增長。

首先,這是由于人工智能行業(yè)本身的發(fā)展將進一步帶動數(shù)據(jù)標注行業(yè)。

其次,目前能被建模量化的數(shù)據(jù)只占真實世界中的極少一部分,而現(xiàn)有的數(shù)據(jù)標注業(yè)務又主要集中在安防和自動駕駛領域,未來,隨著AI深入更多垂直行業(yè),新的數(shù)據(jù)需求將不斷出現(xiàn)。

何軍回憶到,前些天北航的學生找上門來,要對“積云”進行標注。而杜霖也分享了一個很有意思的標注項目——標注指甲區(qū)域,因為客戶要做美甲機器人。

第三,在當下主流的“有監(jiān)督學習”算法模型下,為了讓算法準確率更高,對數(shù)據(jù)的需求量也將隨之增大。

第四,從感知智能向認知智能的進化過程中,將需要不同維度的數(shù)據(jù),這可能進一步催生出更精細的數(shù)據(jù)標注需求。比如,對一段對話數(shù)據(jù)的標注,不僅要知道對話內(nèi)容、語義,可能還需要標注談話者的身份、情緒變化等。

杜霖提到,目前在人工智能公司的總支出中,20%~30%都用于數(shù)據(jù),而現(xiàn)階段大陸市場數(shù)據(jù)采集及標注的規(guī)模保守估計有五十億元。綜合以上四點,在未來,包括采集、標注、清洗等流程的數(shù)據(jù)市場將達上百億元。

而這一切都是基于“有監(jiān)督學習”這個大前提。如果算法從“有監(jiān)督學習”升級為“無監(jiān)督學習”等新算法后,數(shù)據(jù)標注需求將大大減少。但是在目前,無監(jiān)督學習等新算法尚不能用在大規(guī)模的商業(yè)落地中。

因此杜霖判斷,新的革新性算法至少在5年內(nèi)都不會出現(xiàn)。深度學習訓練平臺Novumind創(chuàng)始人吳韌也認為,深度學習+大數(shù)據(jù)較難出現(xiàn)顛覆性的其他路徑。

5年,這對公司來說是一個可以布局、掉頭的“窗口期”。京東眾智的李工說,他們應對變化的策略是著力研發(fā)加速AI落地速度的Pre-A.I.產(chǎn)品,并同時研發(fā)平臺技術,做到“數(shù)據(jù)與流程分離架構”,因此數(shù)據(jù)標注不是他們的核心戰(zhàn)略。

BasicFinder也有類似布局,他們希望一手對接垂直行業(yè)里的數(shù)據(jù)生產(chǎn)者,一手對接上游的算法模型公司,共同推進AI的落地。

但對數(shù)據(jù)標注者個體來說,5年后也許就得面臨一次“失業(yè)”。那時,他們還能跟隨時代的腳步騰挪轉移嗎?

燙手的小袁

小袁暫時想不到5年后那么長久的事。

他作為一名換過40份工作的聾啞人,很慶幸終于在數(shù)據(jù)標注行業(yè)成了“有用的人”?,F(xiàn)在,他是京東眾智平臺上“靜公會”的聾啞人標注員,而這個公會全部由聽障人士組成。

聾啞人的世界里多為名詞,缺乏形容詞。比如,要向他們解釋這根線標得不“直”,就會比較費勁。因此,在數(shù)據(jù)標注工作上,健全人1周能完成的培訓,聾啞人要花3周或更久。但是他們的優(yōu)點是專注、較真、對視覺信號敏銳,數(shù)據(jù)標注行業(yè)就成了他們的機會。

像小袁這樣的聾啞人在眾智平臺上還有一千多名,京東為他們成立的“靜公會”,在項目工作上優(yōu)先照顧。比如,杜霖手下也有3個殘疾人團隊,總共約80人。

杜霖和京東眾智平臺負責人都表示,愿意為更多殘疾人提供工作機會,這里是他們的家。而其中的少數(shù)人,也許能通過轉型為數(shù)據(jù)質檢者,獲得更長期的職業(yè)生涯。

但科技的發(fā)展,必將帶來智能升級,也使整個行業(yè)更加規(guī)范化。因此,盡管數(shù)據(jù)標注者的工作是幫機器更好地學習,促進人工智能行業(yè)的發(fā)展,但行業(yè)發(fā)展到一定階段時,可能將不再需要大量的人工標注。

可說到底,對知識的無限追求既是人類的天賦,也是人類攜帶的危險,它早已深藏在我們的基因之中,呼喚我們不斷逼近未知邊界,所以更高的智能一定會到來。屆時,認知差距將取代財富差距成為人群劃分的最顯著標準——而那可能是一種更無形的“折疊”。

未來,當我們真正享受智能帶來的各種便捷時,歷史會遺忘這些人工智能領域的“首批工人”嗎?

這可能是除了技術水平之外,判斷那個未來是好是壞的更重要的標準。

(本文摘編自微信公眾號“甲子光年”)

編 輯:李垣諭 penguinpen@163.com

鏈接:

[1]數(shù)據(jù)標注:我們準備一張有家具的圖片,在上面框出家具,并標注“家具”兩個字,就是數(shù)據(jù)標注的工作。機器通過大量圖片學習了家具的特征后,再給機器任意一張有家具的圖片,它就能識別家具。

[2]非結構數(shù)據(jù):沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。

[3]有監(jiān)督學習:使用已知正確答案的示例來訓練網(wǎng)絡的。

無監(jiān)督學習:可以做到通過人工智能在視頻網(wǎng)站中找貓。具體做法是:算法自動將包含貓的視頻組合在一起,而不需要任何明確的訓練數(shù)據(jù)。

10
歡迎關注商界網(wǎng)公眾號(微信號:shangjiexinmeiti)

評論

登錄后參與評論

全部評論(54)

廣告
廣告
廣告
商界APP
  • 最新最熱
    行業(yè)資訊

  • 訂閱欄目
    效率閱讀

  • 音頻新聞
    通勤最愛

廣告
稷山县| 彭州市| 丹凤县| 都匀市| 平江县| 泰来县| 衡东县| 日土县| 肥城市| 淮南市| 汤原县| 六安市| 磐安县| 闽侯县| 长岛县| 桦甸市| 吉安县| 新竹市| 孝昌县| 汾阳市| 平武县| 九龙坡区| 稷山县| 临高县| 二手房| 高邮市| 岗巴县| 云龙县| 八宿县| 洱源县| 同江市| 宜章县| 中卫市| 天峻县| 河东区| 濉溪县| 中江县| 子长县| 监利县| 泸水县| 门头沟区|