💥 Gate廣場活動: #FST创作大赛# 💥
在 Gate廣場 發布 CandyDrop 第71期:CandyDrop x FreeStyle Classic Token (FST) 相關原創內容,即有機會瓜分 3,000 FST 獎勵!
📅 活動時間:2025年8月27日 – 9月2日
📌 參與方式:
發布原創內容,主題需與 FST 或 CandyDrop 活動相關
內容不少於 80 字
帖子添加話題: #FST创作大赛#
附上 CandyDrop 參與截圖
🏆 獎勵設置:
一等獎(1名):1,000 FST
二等獎(3名):500 FST/人
三等獎(5名):200 FST/人
📄 注意事項:
內容必須原創,禁止抄襲或刷量
獲獎者需完成 Gate 廣場身分認證
活動最終解釋權歸 Gate 所有
活動詳情連結: https://www.gate.com/announcements/article/46757
從Web2到Web3:我為何看好AI賽道
作者:Zixi.eth,經緯中國投資人 來源:X(原推特)@Zixi41620514
我近期開始重點花時間來看Web2/Web3 AI賽道,Focus on在全球的模型大賽道中的開源模型社區,數據大賽道,服務於大模型的各種中間件——例如為Foundation Model變成行業大模型的全流程服務,以及部分Application等。 歡迎各類創業者同我們經緯溝通,我們認為AI會是一個很長期的賽道。
第一期將會分享一下,我們近期已經佈局了的數據大賽道中的數據標註行業,也是我個人今年投的很滿意的標的。
AI的開發可分為以數據採集、清洗、標註、增強等流程為主體的數據準備工作,以模型構建、訓練、調優、部署為主體的演算法開發工作。 其中,由於新時代AI對數據具有多模態,高精度,強定製等的多樣化需求,新時代AI數據對人力勞動的依賴程度也很較高,同時也需要進一步提升AI和人的流暢交互來增加效率。 數據標註工作指對模型訓練所需的數據樣本中的特徵要素進行標識與區分。 由於目前AI的發展仍處於監督學習階段,以深度學習為代表的AI演算法模型在訓練過程中對數據內涵資訊及數據之間邏輯的學習及驗證基於數據的特徵標識實現,數據的標註工作具有必要性,是數據準備乃至人工智慧項目開發的核心工作之一。 與數據準備其餘工作流程類似,數據的標註工作高度依賴人力勞動。 冗長的工作週期及龐大的人力成本成為制約AI行業發展的主要因素之一。 數據標註服務供給側的痛點催生市場對自動化工具的需求,推動智慧數據標註技術的發展與規模化應用。
圖1:從數據採集到AI可用的數據集

在目前數據標註最大的應用下游智慧駕駛領域,仍需要大量的人工來標註各種場景,如貓貓狗狗、電線杆、嬰兒車等。 舉例來說,Scale AI是OpenAI的重要數據供應商,他們在全球的第三世界國家建立了自己的數據標註工作室,協助OpenAI進行文字/圖片的數據標註。
然而,隨著AI的進步,預標註在工作流程中的佔比逐漸增大。 在早期,數據標註主要通過手動方式完成,以構建和積累機器學習的數據集。 儘管效率相對較低,成本較高,但只要標註到位,向機器提供的數據具有很大的優勢。 隨著時間的推移,人工標註的重心逐漸從美國轉移到委內瑞拉、菲律賓等第三世界國家,以降低成本。
隨著模型的發展,自動化數據標註的準確性提高,可以使用模型來輔助人工標註,例如模型預處理數據然後發送給人工標註,或者由人工審核和校正自動化模型提供的標註結果。 與純人工標註相比,AI輔助標註加快了數據標註的速度。 目前,全球最大的數據標註公司之一,如Scale AI等,都在努力減少數據標註過程中的人工參與比例。
儘管預標註在計算機視覺領域的數據上已經取得了不錯的效果,但在語言和大模型的新時代,預標註仍然非常不成熟,無法完全替代人力。 原因如下:1. 準確性低,特別是在處理複雜任務和邊緣案例時。 2. 樣本偏差和模型幻覺問題。 3. 某些垂直領域需要大量由行業專家標註的數據集。 4. 預標註的可拓展性較差,尤其對於小語言或不常見場景,成本高且品質較差,仍需要特定的人工完成。
綜上所述,短期內預標註不會完全取代人工標註,兩者將共存。 雖然人工標註的比例可能會下降,但標註流程中仍需要審核員進行數據標註的審核。
圖:預標註下的數據標註流程

數據標註行業並非新興行業,它伴隨著智能駕駛的興起於17/18年開始嶄露頭角。 下圖展示了國內預測的數據標註供應商市場規模,值得一提的是,美國的數據標註市場規模大致是中國的3-5倍。
數據標註行業是一個相對分散的市場,不像是一個技術壁壘極高的領域,而更像是技術、人力和組織管理壁壘各佔三分之一的領域。 該領域的核心競爭力主要體現在以下幾個方面:1. 價格 2. 品質 3. 專業知識和知識覆蓋範圍(多樣性?)4. 速度
價格是顯而易見的,因為所有人都需要大量廉價的數據。 在價格方面的壓力驅使著一種地理套利的方式,即在發達的美國,完成一項數據標註可能需要支付1美元的工資,而在不太發達的中國,這僅需要0.5美元,在菲律賓可能只需要0.1美元。 因此,市場上的解決方案之一是將訂單交給第一世界國家,然後在第三世界國家招募人員,通過直營工作室解決問題。
數據品質也很容易理解,大模型和智慧駕駛領域需要高質量的數據。 如果輸入模型的數據品質差,大模型的性能也將受到影響。 解決數據質量問題的有效方案之一是通過模型的預標註產生原始數據,然後進行人工標註,然後不斷進行強化學習和人工反饋,以完善數據標註品質。 或者,團隊需要對下游客戶的數據標註流程非常清晰,能夠制定標準操作程式(SOP),使數據標註員工可以根據SOP進行標註,從而提高品質。
然而,如何理解專業知識和知識覆蓋範圍呢?我們舉三個例子:
在通用大模型下,這是一個不小的挑戰。 給文本大模型標註可能相對容易,但你必須找到能夠標註中文/英文/法文/德文/俄文/阿拉伯文等多語言的人員,而數據標註公司如何在全球範圍內招募和管理這麼多分散式的人員將是一個不小的難題。
考慮一個語音機器人/數位人領域的人工智慧應用初創公司。 初創公司通常沒有足夠的時間、人力和資金來內部建立一個數據標註團隊。 他們需要找到一個外包團隊來幫助標註四川口音、粵語口音、上海口音、東北口音等中文語系,同時還需要標註北美英語口音、英國英語口音、新加坡英語口音等英語語系。 在市場上找到一個能夠勝任這些任務的優秀數據標註工作室可能會非常困難。 如果採用直營或分包的方式,從接單到招募可能需要一兩個月的工作時間,這將嚴重影響供應效率。
再考慮一個更為細分的領域,一個專注於法律大模型的初創公司需要大量的法律數據標註工作。 法學領域仍然具有相當高的專業要求,初創公司需要找到符合以下條件的數據標註供應商:1. 至少有十幾個瞭解法律的人員,可能還需要涵蓋中國法系、香港法系、美國法系等;2. 必須能夠理解中文和英文;3. 成本不能太高。 如果找律師來進行標註,由於律師工資較高,他們可能不願意從事這項工作。 因此,目前這類細分領域的解決方案只能是內部招募學校實習生來從事數據標註工作。 而對於直營和分包的管理模式,要完成此類細分領域的賽道還是相當困難的。
因此,市場上的主要參與者可以分為三類:1. 大公司內部自主完成(例如百度眾包);2. 採用直營/分包模式的初創公司(下面進行分析);3. 中小型數據標註工作室。
圖:中國AI市場的數據市場規模

在我們繼續深入分析之前,讓我們先瞭解一下當前該領域的龍頭初創公司:
收費模式分為兩種:
Consumption-base:例如,Scale Image起價為每張圖片2美分,每條標註6美分;Scale Video起價為每幀視頻13美分,每條標註3美分;Scale Text起價為每項任務5美分,每條標註3美分;Scale Document AI起價為每項任務2美分,每條標註7美分。
Project-base,即根據合同中的數據量等專案收費,實際上大部分收入為專案制收入,客單價從幾十萬美元至幾千萬美元不等。
2022年,Scale AI的預計收入為2.9億美元,目前估值為70億美元,是世界上最大的數據標註公司。 該公司的投資人也非常豪華。
海天瑞聲:中國的海天瑞聲在數據標註領域也扮演著重要的角色。 該公司在數據標註、數據清洗、數據分析等方面有著豐富的經驗。 然而,關於其詳細的業務模式、收費方式和融資情況等方面的資訊目前尚不清晰。
Appen:澳大利亞的Appen是另一家全球領先的數據標註公司。 與Scale AI類似,Appen提供數據標註、語音數據收集、翻譯等服務。 該公司在全球範圍內設有眾多的標註員,為客戶提供高質量的數據標註服務。 Appen的詳細業務模式和融資情況也值得進一步深入瞭解。


這三家公司在全球數據標註領域佔據重要地位,分別代表了美國、中國和澳大利亞在這一領域的領先地位。 在我們深入探討初創公司的業務模式和市場競爭之前,這些龍頭公司的瞭解將有助於為整個行業的背景提供更全面的認識。
海天瑞聲是A股上市公司,但不完全是個數據標註公司。 相比於自己建團隊直營做數據標註,海天本質上是技術服務商,把單子外包給各種工作室。 海天瑞聲在國內能做大核心靠的是:1.在語音標註上積累很深,能覆蓋190多種語言(佔70-80%收入) 2.規模效應 3.國際化能力不錯。 在國內數據標註行業很狂野也很早期,非常零散且無序,也缺乏行業標準和規範。


我們可以看看(Appen)和海天的商業模式對比,看看直營/外包的商業模式和毛利經歷情況。
圖:直營/外包商業模式...


鋪墊了這麼多,記性好的讀者是不是想到我們的標題是如何用區塊鏈重塑數據標註。 全文還沒講到區塊鏈呢,到底怎麼重塑呢?
未來的AI應該是open和sovereign的,無論是數據,算力,還是模型,都應該在確保高品質和效率的基礎上給社會提供universal and open access。 所有幫助推進AI的參與者應該對自己的貢獻和產出用有所屬權以及合理的利益分配和獎勵。
我們近期投資的公司Quest Labs的目標就是重新定義新時代AI和人的關係,通過AI和區塊鏈的技術來顛覆和解決現有行業內的痛點。 作為AI產業鏈上游必須的鏟子,數據服務就是Quest第一個想要解決的問題。 通過AI來促進數據生產效率,通過區塊鏈來重新定義新時代公開數據集的經濟模型和價值捕獲,兩者相輔相成來良性的持續產出High value data以及提升AI標註員的能力和認知。
從web2的世界來看,這是一個數據標註的分發平臺,有點像滴滴和美團外賣。 但是從web3來看,這是一個有真實現金流的Axie Infinity+YGG。 在2021年的牛市中,Axie和YGG的組合帶了相當多的第三世界用戶進入Web3,並且這類遊戲公會在疫情中養活了非常多的第三世界家庭,尤其是菲律賓。 市場也給了Axie和YGG非常好的回報,他們是很有意思的Alpha。 我們作為一個bridging web2和web3的投資人,非常願意支援利用區塊鏈技術給真實商業添磚加瓦的專案和團隊,我們很期待團隊在之後的表現。 這也是我們看到少有的web3技術能夠給web2業務插上翅膀的方向。