火爆“智能”下的慘淡“人工”
百度眾測給了翊澳數據第一桶金,但同時也讓靳建偉認識到這個行業的慘烈。
他回憶,去年百度眾測上的“題”特別豐富,大量數據標注團隊都緊緊盯著,僧多肉少,百度眾測有絕對的權力來制定游戲規則。
想要拿到“做題”資格,必須經過數輪考核,比賽做題的速度和準確度,每一輪考核后,都有團隊被淘汰出局,最后僅剩十支團隊能進入百度眾測的名單,每隔一段時間,就會有末位淘汰,后三名的團隊會被替換掉。
這一過程堪比高考,工廠的員工大多學歷不高,以專科生為主,但為了賺錢,他們鉚足了勁。“那一段時間我們天天刷題庫,練習,這個事情就是熟能生巧,我們單獨拉了一支20人的團隊,不干別的,就應付這個考試,來來回回折騰了好幾個月,終于考上了。”
自去年加入百度眾測平臺開始,翊澳數據就一直保持在前十名的位置,這也讓他們真的賺到了錢,“從去年10月到今年上半年,百度一共給我們結了120萬。”靳建偉說道。
但他仍有怨言,在他和一些同行看來,百度也不太地道。前期耗費幾個月時間的考試,似乎是在做無償勞動,“那些考試的題,其實就是真實的客戶需求,我們做完了,百度就拿去賣了。”
只要能賺錢,前期免費付出一些也未嘗不可。相比其他訂單來源,百度眾測給的單價更高,平臺上的訂單價格是按照每個標注員每天8小時工作量測算,正常情況下8小時能標注1200個數據框,價格是240元人民幣。
為了能夠擴大收入,靳建偉要求員工一天能標注2000個數據框,“做的越多,賺的越多。”
依靠百度眾測,靳建偉嘗到了甜頭。好景不長,百度眾測平臺上的單越來越少,甚至出現長時間的“斷糧”情況。
目前整個AI行業都處于起步階段,數據與算法交替磨合前進,需求在不斷變化,對于數據標注的需求也是周期性的,并非源源不斷。例如,2017年,數據標注行業就很少接到車牌識別的訂單,因為標注量已經足夠多,算法需要時間去慢慢消化,并落實應用,然后再發現其他數據需求。
突然無題可做,這對于當時已經有數百人規模的翊澳數據來說,壓力巨大,每天員工的工資就是一筆不小的開銷。
為了維持運轉,他只能再去找新客戶,他們曾經接過自動駕駛明星公司Momenta的二手訂單,他降低價格,說服了Momenta直接給訂單,繞開了中間商。
自動駕駛企業對數據量的要求非常大,路況信息龐雜,采集到路況圖片后,需要人工對路牌、障礙物、交通信號標志等多種信息進行標注。
Momenta成立兩年時間,已經完成5輪融資,融資金額超過1億美元。在同行看來,接到這樣的明星客戶,意味著能在業內樹立口碑,且融資能力強,不缺錢。
但Momenta給到翊澳數據的標注價格非常低,幾乎只有百度眾測的30%,他們完全賺不到錢。“那也沒辦法,還是要做,不然我手里這么多員工,吃什么?”
采訪進行到一半時,靳建偉突然接到了百度眾測打來的電話,過去兩個月,他多次試圖聯系百度眾測平臺,但得到的回應都很冷淡,而這一次,對方告訴他,馬上平臺上會放題,讓他提前做好準備。
“好幾次都想放棄,每次一冒出放棄的念頭,就來消息說數據馬上要來了。”
這個消息讓他既欣喜又糾結,百度眾測一旦放題,意味著收入可以很快跟上,但他現有的團隊很難保證同時兼顧百度和Momenta兩頭,雖然出價低,但Momenta是他唯一的標桿客戶,也有必要長期維系。
距離翊澳數據總部幾十公里之外,是富士康的鄭州園區,員工數量超過25萬人,靳建偉曾經的夢想是做出一家人工智能領域的富士康,但現在,他發現這個夢想有些遙不可及。
隨著AI產業的興起,各行各業都了有AI化的需求,也進一步刺激了數據標注行業的發展,翊澳數據這樣的數據工廠只是其中一環,AI公司、數據標注平臺、中介、數據工廠,甚至包括個人,共同組成了這一條產業鏈。
其中,中介們最為活躍。
除了Momenta,在靳建偉尋求出路的過程中,北京數據標注初創公司星塵數據主動聯系了他,也是唯一一家主動找上門,并能提供訂單的公司。
星塵數據位于北京三里屯,2018年1月完成1000萬人民幣的Pre-A輪融資,公司運營副總裁商宇通過百度眾測平臺發現了翊澳,“他們一直保持在平臺的前幾名,說明標注質量有保障。”商宇接受《財經》記者采訪時說道。
與翊澳數據一樣,星塵數據的辦公室也找不到任何標志,創始團隊大多有美國工作背景,他們像硅谷的初創公司一樣,十幾名員工擠在一起,整個公司看起來還沒有靳建偉個人辦公室大。
但他們比靳建偉更了解這個行業。
“我們想做的其實是一個數據標注平臺,”商宇說,“能夠對接需求方和標注團隊,以及有時間和余力做標注的個人,就像是數據標注里的滴滴。”
平臺是長期目標,短期內,星塵做的是中介的工作,他們去競標訂單,然后找到工廠承接。
但大家都處于摸著石頭過河的程度,星塵斷續給了翊澳一些小訂單,怎么定價,是雙方都不太清楚的問題。
從鄭州去往輝縣的路上,靳建偉收到星塵發來的消息,稱他們準備去競標一項數據采集的單子,讓靳建偉報個價,他們拿著這個價格去競標。
“我怎么知道應該報什么價格?”靳建偉有些茫然,他沒做出數據采集的工作,但是他缺訂單,兩小時的車程中,他一直在糾結報價的問題。“50?30?要不然報高一點讓他們砍價?但是萬一覺得太貴把我們排除了怎么辦?”
相比他們的迷茫與矛盾,博雅立方走的是另外一條路線——提供定制化的數據標注服務。
數據服務提供商博雅立方是中昌數據(600242.SH)旗下品牌,主要業務就是數據標注,團隊目前超過1000人。
博雅立方總經理王馨比靳建偉更早看到了機會,2012年,她開始做搜索引擎和輸入法的語量庫和知識庫。“你在網上搜索資料,和語音識別、圖像識別一樣,都是機器交互,也就需要不斷的給機器灌輸信息來實現。”
AI爆發后,王馨也轉型到數據標注領域,除了簡單的圖像數據標注,他們還做難度更高的語音數據標注,以及專業性更強的細分行業數據標注,如醫療、法律等。
不過,AI公司通常不會只找一家數據標注公司提供服務,將標注需求拆分給多個團隊能夠更好的降低成本。這一過程基本通過招投標的方式來進行,客戶主要考察過往經驗,完成訂單所需時間,以及單價。
在全行業都缺乏經驗時,完成訂單的效率和單價就成立主要考核因素,靈活的小團隊們在這兩點上,優勢顯得更大。“想要找人來外包訂單,快速完成,并不困難。”靳建偉表示,“你在網上發個招聘信息,一天之內會有100家接不到活的團隊找上門。”
環環相扣的數據標注行業像是一片擠滿了鯉魚的池塘,偶爾一把魚食撒下來,會被不擇手段地立刻分食干凈,然后餓著肚子等待下一場競爭。
快要消失的圍城?
過去幾個月,靳建偉看著周圍的同行一個個開始轉型、退場,每天都處于焦慮狀態中。此前他熟悉的一個同行,由于找不到標注的訂單,接了一份豬臉數據采集的工作,在鄉下找豬圈拍照,3天時間收入2000元。
“我也想好了,不能這樣無限的砸錢進去,我的底線是再投入100萬,如果還是這樣的情況,就放棄。”他說。
數據標注行業越來越像一個圍城,城中人痛苦不堪,找不到出路,城外人認為這里遍地黃金,會誕生下一個富士康。
在中國政府大力支持AI產業發展的政策環境之下,不少地方政府都通過各項優惠政策,吸引AI公司落戶,但數據標注行業似乎是一塊被忽視的死角。
接受《財經》記者采訪的數據標注相關團隊都表示,目前他們沒有發現任何相關的優惠政策。
沒有政策優惠,也幾乎沒有任何壁壘,數據標注只能存活于產業鏈底端,壓價情況嚴重,生存艱難。大部分時候,數據標注團隊都會面臨兩個選擇——要么無訂單可做,要么接受虧本價。
由于業務的不確定性,大量小型數據標注團隊都是有活就干,無活解散,這也導致標注質量無法得到有效保證。
中國信息通信研究院在今年9月發布的《2018年人工智能發展白皮書》中表示,在數據層面,主要存在流通不暢、數據質量良莠不齊和關鍵數據集缺失等問題,尤其是數據標注主要通過外包形式,勞動力水平決定了產出的標注數據質量。
多位接受《財經》記者采訪的AI初創公司創始人表示,他們接觸過的數據標注團隊質量良莠不齊,“那些數據標注團隊能做到的,我們自己也能做,可能還能做的更好,為什么要花這個錢?”其中一位創始人說道。
在商宇看來,沒有技術壁壘的工作,完全可以通過平臺眾包模式,分發給個人來做,“這樣效率更高。”
數據標注眾包模式最早出現在美國,2015年,亞馬遜推出勞務眾包平臺(Amazon Mechanical Turk),初衷是為了解決內需——管理庫存,完成圖片和產品分類,翻譯文本,將語音或者圖片轉錄成文本等工作,隨后平臺漸漸對外開放。截至2017年底,該平臺注冊用戶量累計過50萬。
亞馬遜眾包平臺的一個標志性的成績是幫助斯坦福人工智能實驗室主任李飛飛完成了ImageNet的建立,ImageNet目前擁有超過1400萬被分類的圖片,大部分由該眾包平臺上50000名用戶耗時兩年完成。
目前在中國,還沒有已經成型的,面向個人的眾包數據標注平臺,目前百度眾測官方平臺僅對企業開放。
一個現實的問題是,眾包模式如何保證質量?這也是王馨認為眾包模式現階段并不可行的主要原因。
AI在行業落地時,屢遭困難,很大一個原因在于傳統行業與人工智能之間的隔閡仍然明顯。博雅立方作為數據標注行業里的老牌公司,同時又有上市母公司的背景,吸引了不少想要進行AI化改造的傳統企業。
這些公司很多仍然不清楚自己真正的需求是什么,為此,博雅立方組建了一支專業化的前端團隊,這些人來自于傳統行業或是AI行業,在前期就會花費大量的時間進行溝通交流,來明確應該采集哪些數據,應該做哪些維度的標注。“這些都是眾包模式無法提供的服務。”王馨說,“當然我們的價格也會更高。”
以目前行業壓價情況來看,有能力做到深度、定制化服務的團隊并不多,而另一方面,大部分數據標注需求,還處于相對基礎的水平,對于還未能通過AI盈利的大部分企業來說,也不愿意在數據標注環節,支付稍高的價格。
AI是否會讓更多人失業,一直是被討論的焦點。國際貨幣基金組織的一份報告稱,包括AI在內的新興科技將讓全球30個國家和地區的2600萬份工作消失。科技進步同時也創造了許多新的就業機會,數據標注就是一個由于人工智能發展而誕生的新行業。
在缺乏行業標準,發展混亂這些現有問題之下,數據標注行業面臨最大隱患是,未來AI的發展可能不再需要這一環節。
10月10日,中國最大的科技公司華為發布了AI戰略,華為輪值董事長徐直軍在臺上說,數據標注師這樣的職業很有可能被顛覆,華為要做的改變是提升AI自身的自動化水平,比如在數據標注、數據獲取,特征提取,模型設計和訓練等環節實現自動化或半自動化。
沒有“人工”就沒有“智能”,這一幕很可能只是人工智能產業發展史上的短暫一幕。








評論