揭秘華人創辦的數據標注帝國:去年營收10億美元
02.從硅谷工程師到行業顛覆者
埃德溫.陳在麻省理工學院攻讀語言學與數學。畢業後,他先後任職於Facebook、Dropbox、谷歌和Twitter,擔任機器學習工程師,主導推薦系統、搜索算法開發及訓練數據采集等核心工作。這段頂級科技公司的從業經歷,讓他親眼目睹了大公司在數據標注環節的現實困境。
以在Facebook工作時期為例,他曾負責開發一款Yelp競品,團隊需要訓練一個能准確分類企業類型(如區分餐廳與雜貨店)的模型。當時外包機構告知,完成包含5萬個企業樣本的精准標注數據集需要長達6個月時間。更棘手的是,最終交付的數據存在嚴重質量問題(如將餐廳誤標為醫院),這一經歷直接促使他萌生了創立Surge的想法——立志解決傳統數據標注行業效率與質量雙低的痛點。
“我們除了等待別無他法,” 埃德溫.陳說。當數據交回來時,他驚呆了:在某些情況下,餐廳被標注為咖啡店,咖啡店被標注為醫院。“這些數據完全是垃圾,”他說。
2020年,他離開Twitter創立Surge,並通過硅谷創業者特有的方式——在舊金山Dogpatch社區和教會區的攀岩館偶遇Airbnb和Neeva(一家曾被看好的AI搜索引擎初創公司)的高管,向他們推銷自己的公司——獲得了首批客戶。
為推動Surge起步,埃德溫.陳招募了此前工作中認識的數據標注合同工,並用自己的積蓄為公司注資。巧合的是,當語言模型開始變得重要時,埃德溫.陳把業務聚焦於這一領域——而Scale最初則專注於為自動駕駛汽車評估更可視化的數據。
不到一年後,OpenAI就與Surge簽約,聘請後者對其模型進行微調,通過基於雙方共同發表的研究論文,教模型避免產生有害響應(如種族偏見語言)。到2022年,Anthropic也成為Surge的客戶,該公司部分依賴Surge的合同工來評估大語言模型是否能幫助人類監控其他AI,試圖在全行業開發類人AI的探索中建立安全檢查機制。
數據標注還能確保模型響應的風格一致性。知情人士透露,某企業科技公司曾使用Surge的合同工編寫代碼行及其附帶解釋。這些代碼和解釋不僅必須正確,還需要在不同標注者的示例中保持相似的結構、長度和復雜程度,以確保該公司訓練的模型能輸出符合其風格的代碼。
03.?行業共性與Surge的神秘護城河?
Surge的客戶表示,Surge對其內部流程及快速生成高質量數據的技術細節守口如瓶,但這種情況在業內並不罕見。“這和我與雲服務提供商合作時的情況一樣,” 上述企業科技客戶說,“我不知道他們的服務為何能如此出色的內部原理,我只需按下按鈕,就會為其背後的工作成效感到高興。”
數據標注公司通常會使用各種技術,確保合同工在回答問題時不敷衍了事。例如,這些公司會隨機插入無標准答案的"陷阱題",或要求多名標注者對同一問題的正確答案達成共識。
挑選合同工同樣重要,尤其是當模型開發者在計算生物學和理論物理等高級領域編寫問答示例時,越來越需要受過良好教育的合同工,埃德溫.陳不願詳細說明公司如何管理標注者響應的質量,但他表示,除了初始篩選流程,Surge會?持續評估合同工。他說,公司可以通過多種信號(例如承包商使用的詞匯或光標移動軌跡)判斷響應是否高質量。
即使在投資Scale之前,Meta也在Surge上投入了大量資金。據知情人士透露,去年,Meta的生成式AI團隊向Surge支付了超過1.5億美元?用於數據標注工作,Surge負責從始至終管理整個流程。該人士稱,這與流向Scale的約2億美元?相差不遠。
?一些客戶反映Surge長期處於滿負荷運營狀態,承接項目需預先支付數千萬美元的承諾金。與此同時,OpenAI等模型開發者正通過Mercor等招聘機構自建標注團隊,試圖繞過第三方服務商。此外,數據標注行業的參與者數量持續增加,這一趨勢已對市場價格形成下行壓力——例如谷歌作為Surge的長期客戶,為避免供應鏈依賴正拓展多供應商合作體系,並成功與Surge協商降低服務報價。
面對關於業務增長持續性的質疑,埃德溫.陳顯得頗為從容。他指出公眾對數據標注行業存在認知偏差,普遍低估了維持高質量標准的技術門檻。他說:“人們總是想當然地認為,只要聚集10萬名高學歷人才——比如博士群體——讓他們自由發揮就能產出優質數據。但實際情況是,未經系統化管理的人力投入,只會導致標注質量的嚴重參差不齊。” 在他看來,Surge構建的標准化質控體系,正是應對行業同質化競爭的核心壁壘。


分享: |
注: | 在此頁中閱讀全文 |