Yazar: Zixi.eth, Matrix Partners Çin Yatırımcı Kaynak: X (eski adıyla Twitter) @Zixi41620514
Son zamanlarda, Web2/Web3 AI parkuruna, küresel model parkurundaki açık kaynak model topluluğuna, veri parkuruna ve büyük modele hizmet eden çeşitli ara yazılımlara odaklanmaya başladım - örneğin Temel Model için endüstri modeline tam süreç hizmeti ve bazı Uygulamalar. Her türlü girişimcinin bizimle iletişim kurmasını memnuniyetle karşılıyoruz, yapay zekanın uzun vadeli bir yol olacağına inanıyoruz.
İlk sayıda, yakın zamanda ortaya koyduğumuz veri parkurundaki veri etiketleme sektörünün de bu yıl benim için çok tatmin edici bir hedef olduğunu paylaşacağım.
Yapay zeka geliştirme, ana gövde olarak veri toplama, temizleme, açıklama ve geliştirme süreçleri ile veri hazırlama ve ana gövde olarak model oluşturma, eğitim, ayarlama ve dağıtım ile algoritma geliştirme olarak ikiye ayrılabilir. Bunlar arasında, yapay zekanın yeni çağda çok modluluk, yüksek hassasiyet ve güçlü özelleştirme gibi veri için çeşitlendirilmiş ihtiyaçları nedeniyle, yapay zeka verilerinin yeni çağda insan emeğine bağımlılığı da çok yüksektir ve ayrıca verimliliği artırmak için yapay zeka ile insanlar arasındaki sorunsuz etkileşimi daha da geliştirmek gerekir. Veri etiketleme, model eğitimi için gerekli olan veri örneklerindeki özellik öğelerinin tanımlanmasını ve farklılaştırılmasını ifade eder. Yapay zekanın gelişimi henüz denetimli öğrenme aşamasında olduğundan, derin öğrenme ile temsil edilen yapay zeka algoritma modellerinin eğitim sürecinde veri çağrışım bilgilerinin ve veriler arasındaki mantığın öğrenilmesi ve doğrulanması, verilerin özellik tanımlamasına dayalı olarak gerçekleştirilir ve veri hazırlamanın ve hatta yapay zeka proje geliştirmenin temel görevlerinden biri olan verilerin açıklanması gereklidir. Veri hazırlama iş akışının geri kalanına benzer şekilde, veri etiketleme de büyük ölçüde iş gücüne bağlıdır. Uzun çalışma döngüleri ve yüksek işçilik maliyetleri, yapay zeka endüstrisinin gelişimini kısıtlayan ana faktörlerden biri haline geldi. Veri açıklama hizmetlerinin arz tarafındaki sorunlu noktalar, otomasyon araçları için pazar talebi yarattı ve akıllı veri açıklama teknolojisinin geliştirilmesini ve büyük ölçekli uygulamasını teşvik etti.
Şekil 1: Veri toplamadan yapay zeka tarafından kullanılabilir veri kümelerine
Şu anda, en büyük veri açıklaması uygulamasının aşağı akışı olan akıllı sürüş alanında, kediler ve köpekler, telefon direkleri, bebek arabaları vb. gibi çeşitli senaryoları etiketlemek için hala çok sayıda insana ihtiyaç duyulmaktadır. Örneğin, Scale AI, OpenAI için önemli bir veri sağlayıcısıdır ve OpenAI'ye metin/resim veri açıklamalarında yardımcı olmak için dünyanın dört bir yanındaki üçüncü dünya ülkelerinde kendi veri açıklama stüdyolarını kurmuşlardır.
Bununla birlikte, yapay zekanın ilerlemesiyle birlikte, iş akışındaki ön açıklama oranı giderek artmaktadır. İlk günlerde, makine öğrenimi veri kümelerini oluşturmak ve biriktirmek için veri açıklaması çoğunlukla manuel olarak yapılıyordu. Nispeten verimsiz ve maliyetli olmasına rağmen, ek açıklamalar yerinde olduğu sürece makineye sağlanan veriler büyük bir avantaja sahiptir. Zamanla, manuel açıklamanın odak noktası, maliyetleri azaltmak için kademeli olarak Amerika Birleşik Devletleri'nden Venezuela ve Filipinler gibi üçüncü dünya ülkelerine kaymıştır.
Model geliştikçe, otomatik veri açıklamalarının doğruluğu artar ve model, model verilerinin ön işlenmesi ve ardından insan açıklamasına gönderilmesi gibi manuel açıklamalara yardımcı olmak için kullanılabilir veya otomatik model tarafından sağlanan açıklama sonuçları manuel olarak gözden geçirilir ve düzeltilir. Saf manuel açıklama ile karşılaştırıldığında, yapay zeka destekli açıklama, veri açıklamalarının hızını artırır. Şu anda, Scale AI gibi dünyanın en büyük veri etiketleme şirketlerinden biri, veri etiketleme sürecine insan katılımının oranını azaltmak için çalışıyor.
Ön açıklama, bilgisayarla görme alanında iyi sonuçlar elde etmiş olsa da, yeni diller ve büyük modeller çağında, ön açıklama hala çok olgunlaşmamıştır ve insan emeğinin yerini tamamen alamaz. Sebepler aşağıdaki gibidir:1. Özellikle karmaşık görevler ve uç durumlarla uğraşırken düşük doğruluk. 2. Örnek önyargı ve model halüsinasyon sorunları. 3. Bazı dikeyler, konu uzmanları tarafından açıklamalı büyük veri kümeleri gerektirir. 4. Ön açıklamanın ölçeklenebilirliği, özellikle küçük diller veya yaygın olmayan senaryolar için zayıftır, maliyet yüksektir ve kalite düşüktür ve yine de manuel olarak tamamlanması gerekir.
Özetle, ön açıklama, kısa vadede manuel açıklamanın yerini tamamen almayacak ve ikisi bir arada var olacaktır. Manuel ek açıklama yüzdesi azalabilse de, denetçilerin açıklama işlemi sırasında veri açıklamalarını gözden geçirmeleri gerekir.
Şekil: Ön etiketleme altında veri etiketleme işlemi
Veri açıklama endüstrisi yeni değil, akıllı sürüşün yükselişiyle 17/18'de ortaya çıkmaya başladı. Aşağıdaki grafik, Çin'deki veri etiketleme sağlayıcılarının tahmini pazar büyüklüğünü göstermektedir ve Amerika Birleşik Devletleri'ndeki veri etiketleme pazar büyüklüğünün Çin'inkinin kabaca 3-5 katı olduğunu belirtmekte fayda var.
Veri etiketleme endüstrisi, son derece yüksek teknik engellere sahip bir alan gibi değil, daha çok teknik, insan ve organizasyonel yönetim engellerinin her birinin üçte birini oluşturduğu bir alan gibi nispeten parçalanmış bir pazardır. Bu alandaki temel rekabet gücü temel olarak aşağıdaki yönlere yansır:1. Fiyat 2. Kalite 3. Uzmanlık ve bilgi kapsamı (çeşitlilik?)4. hız
Fiyat açıktır, çünkü tüm insanların çok fazla ucuz veriye ihtiyacı vardır. Fiyat baskıları bir tür coğrafi arbitrajı yönlendirirken, gelişmiş Amerika Birleşik Devletleri'nde bir veri etiketini tamamlamak için maaş ödemek 1 dolara mal olabilirken, daha az gelişmiş Çin'de sadece 0,5 dolara mal olabilir ve Filipinler'de 0,1 dolara kadar düşebilir. Bu nedenle, piyasadaki çözümlerden biri, birinci dünya ülkelerine sipariş vermek ve daha sonra doğrudan işletilen stüdyolar aracılığıyla sorunu çözmek için üçüncü dünya ülkelerindeki insanları işe almaktır.
Veri kalitesinin anlaşılması da kolaydır ve büyük modeller ve akıllı sürüş alanında yüksek kaliteli veriler gereklidir. Modele beslenen verilerin kalitesi düşükse, büyük modelin performansı da düşecektir. Veri kalitesi sorununu çözmek için etkili çözümlerden biri, modelin ön etiketlemesi yoluyla ham veriler oluşturmak ve ardından manuel olarak açıklama eklemek ve ardından veri etiketlemenin kalitesini artırmak için sürekli olarak pekiştirmeli öğrenme ve insan geri bildirimi gerçekleştirmektir. Veya ekibin, alt müşteriler için veri etiketleme süreci konusunda çok net olması ve kaliteyi artırmak için veri açıklama personelinin SOP'lere göre açıklama ekleyebilmesi için standart işletim prosedürleri (SOP'ler) geliştirebilmesi gerekir.
Ancak uzmanlık ve bilgi kapsamını nasıl anlarsınız? Üç örnek verelim:
Bu, genel model altında oldukça zorlu bir iştir. Büyük metin modellerine açıklama eklemek nispeten kolay olabilir, ancak Çince / İngilizce / Fransızca / Almanca / Rusça / Arapça gibi birden çok dile açıklama ekleyebilecek kişileri bulmanız gerekir ve bir veri etiketleme şirketinin küresel ölçekte bu kadar çok dağıtılmış insanı nasıl işe alabileceği ve yönetebileceği zor olacaktır.
Voicebotlar/dijital insanlar alanında bir yapay zeka uygulaması girişimi düşünün. Startup'lar genellikle şirket içinde bir veri açıklama ekibi kurmak için zamana, insan gücüne ve paraya sahip değildir. Sichuan aksanı, Kanton aksanı, Şanghay aksanı, Kuzeydoğu aksanı vb. gibi Çince dil ailelerinin yanı sıra Kuzey Amerika İngilizcesi aksanı, İngiliz İngilizcesi aksanı ve Singapur İngilizcesi aksanı gibi İngilizce dil ailelerini etiketlemeye yardımcı olacak dış kaynaklı bir ekip bulmaları gerekiyordu. Piyasada bu görevleri yerine getirebilecek iyi bir veri açıklama stüdyosu bulmak çok zor olabilir. Doğrudan satış veya taşeronluk benimsenirse, siparişlerin alınmasından işe alıma kadar bir veya iki aylık çalışma süresi alabilir ve bu da tedarik verimliliğini ciddi şekilde etkileyecektir.
Yasal modellere odaklanan bir girişimin çok sayıda yasal veri açıklaması gerektirdiği daha niş bir alan düşünün. Hukuk alanı hala oldukça yüksek profesyonel gereksinimlere sahiptir ve yeni başlayanların aşağıdaki kriterleri karşılayan bir veri açıklama sağlayıcısı bulması gerekir:1. Yasayı anlayan ve ayrıca Çin hukukunu, Hong Kong hukukunu, Amerikan hukukunu vb. kapsaması gerekebilecek en az bir düzine insan; Çince ve İngilizce'yi anlayabilmeli; 3. Maliyet çok yüksek olamaz. Bir avukattan etiketlemeyi yapmasını isterseniz, avukatın maaşının daha yüksek olması nedeniyle işi yapmak konusunda isteksiz olabilirler. Bu nedenle, bu tür bir segmentasyon için mevcut çözüm, yalnızca okul stajyerlerini veri açıklaması üzerinde çalışmak üzere dahili olarak işe almak olabilir. Doğrudan satış ve taşeronluğun yönetim modu için, bu tür alt bölümlerin izini tamamlamak hala oldukça zordur.
Böylece, pazardaki büyük oyuncular üç kategoriye ayrılabilir:1. Büyük şirketler tarafından şirket içinde yapılır (örneğin, Baidu kitle kaynak kullanımı);2. Doğrudan/alt sözleşme modeline sahip girişimler (aşağıda analiz edilmiştir); Küçük ve orta ölçekli veri açıklama stüdyoları.
Grafik: Çin'in yapay zeka pazarındaki veri pazarının büyüklüğü
Konuya girmeden önce, bu alandaki mevcut lider girişimlere bir göz atalım:
Ölçek AI: Scale AI'nın Amerika Birleşik Devletleri'ndeki ana işi dört yönü kapsar: veri açıklaması, yönetimi ve değerlendirmesi (açıklamalı verilerin kalitesini kontrol edin ve açıklamanın verimliliğini artırın), otomasyon (verimliliği artırmak için yardımcı açıklama) ve veri sentezi (model giderek daha bol hale geldiğinde ve gerçek veriler yeterli olmadığında, veri besleme modelini otomatik olarak sentezlemek gerekir ve sentetik veri izi hakkında daha sonra konuşacağız). Scale AI başlangıçta otonom sürüş açıklamasına odaklandı ve iki yıl önce şirketin siparişlerinin %80-90'ı otonom sürüşten (2D, 3D, LiDAR vb.) geldi ve bu oran son yıllarda azaldı. Şirketin sipariş kaynağı, tedarikçilerin endüstri eğilimine yanıt olarak ortaya çıkıyor ve son yıllarda hükümet, e-ticaret, robotlar, büyük modeller ve diğer alanlar, ekibin endüstri trendlerini kavrama konusundaki keskin yeteneği ile birleştiğinde hızla gelişti, böylece her segmentte yüksek bir pazar payını koruyabilir. Ayrıca Scale AI, müşterilerin modellerde ince ayar yapmasına, barındırmasına ve dağıtmasına yardımcı olmak gibi kendi Hizmet Olarak Model hizmetini başlattı.
İki tür şarj modeli vardır:
Tüketim tabanı: Örneğin, Scale Image görüntü başına 2 sent ve etiket başına 6 sentten başlar, Scale Video video karesi başına 13 sent ve etiket başına 3 sentten başlar, Scale Text iş başına 5 sent ve etiket başına 3 sentten başlar ve Scale Document AI iş başına 2 sent ve etiket başına 7 sentten başlar.
Sözleşmedeki veri miktarına vb. dayanan proje tabanı, aslında birim değeri yüz binlerce dolar ile on milyonlarca dolar arasında değişen proje bazlı bir gelirdir.
2022'de 290 milyon dolarlık tahmini geliri ve 7 milyar dolarlık mevcut değerlemesi ile Scale AI, dünyanın en büyük veri açıklama şirketidir. Şirketin yatırımcıları da çok lüks.
Haiti AAC'si: Çin'in Haiti AAC'si de veri açıklaması alanında önemli bir rol oynamaktadır. Şirket, veri açıklama, veri temizleme, veri analizi vb. konularda zengin deneyime sahiptir. Ancak, ayrıntılı iş modeli, ücretlendirme yöntemleri ve finansmanı hakkında bilgi henüz net değil.
Appen: Avustralyalı Appen, dünyanın önde gelen veri açıklama şirketlerinden bir diğeridir. Scale AI'ye benzer şekilde Appen, veri açıklaması, ses verisi toplama ve çeviri gibi hizmetler sunar. Şirket, müşterilere yüksek kaliteli veri açıklama hizmetleri sunmak için dünya çapında çok sayıda açıklayıcıya sahiptir. Appen'in ayrıntılı iş modeli ve finansmanı da derinlemesine incelenmeye değer.
Bu üç şirket, sırasıyla Amerika Birleşik Devletleri, Çin ve Avustralya'da bu alandaki lider konumları temsil eden küresel veri açıklama alanında önemli bir konuma sahiptir. Girişimlerin iş modellerine ve pazar rekabetine dalmadan önce, bu önde gelen şirketlerin anlaşılması, bir bütün olarak endüstrinin bağlamının daha kapsamlı bir şekilde anlaşılmasına yardımcı olacaktır.
Haiti AAC, A hissesine kote bir şirkettir, ancak tam olarak bir veri etiketleme şirketi değildir. Veri açıklaması yapmak için kendi ekibini oluşturmakla karşılaştırıldığında, Haitian esasen bir teknik servis sağlayıcıdır ve siparişleri çeşitli stüdyolara dış kaynak olarak kullanır. Haiti AAC'nin Çin'deki genişlemesinin özü şunlara bağlıdır: 1. 190'dan fazla dili kapsayan (gelirin %70-80'ini oluşturan) konuşma açıklamalarında derin bir birikime sahiptir. 2. Ölçek etkisi 3. İyi uluslararasılaşma yeteneği. Çin'de, veri etiketleme endüstrisi çok vahşi ve erken, çok dağınık ve düzensizdir ve ayrıca endüstri standartları ve normları eksikliği vardır.
Doğrudan satış/dış kaynak kullanımı iş modelini ve brüt kar deneyimini görmek için (Appen) ve Haiti arasındaki iş modeli karşılaştırmasına bakabiliriz.
Şekil: Doğrudan/Dış Kaynak İş Modelleri...
Bu kadar çok öngörü varken, iyi hafızası olan okuyucular, başlığımızın blok zinciri ile veri açıklamasını nasıl yeniden şekillendirdiğini düşünmediler. Tam metin henüz blok zincirinden bahsetmedi, nasıl yeniden şekillendirilir?
Yapay zekanın geleceği açık ve egemen olmalı, ister veri, ister bilgi işlem gücü veya modeller olsun, yüksek kalite ve verimlilik sağlama temelinde topluma evrensel ve açık erişim sağlamalıdır. Yapay zekanın geliştirilmesine yardımcı olan tüm katılımcılar, kendi katkıları ve çıktıları için mülkiyet haklarının yanı sıra makul dağıtım ve fayda ödüllerine sahip olmalıdır.
Son yatırım şirketimiz Quest Labs, yeni çağda yapay zeka ve insanlar arasındaki ilişkiyi yeniden tanımlamayı ve sektördeki mevcut sorunlu noktaları bozmak ve çözmek için yapay zeka ve blok zinciri teknolojisini kullanmayı hedefliyor. Yapay zeka endüstri zincirinin yukarı akışında gerekli bir kürek olan veri hizmeti, Quest'in çözmek istediği ilk sorundur. Yapay zeka aracılığıyla veri üretim verimliliğini teşvik edin ve sürekli olarak yüksek değerli veriler üretmek ve yapay zeka açıklayıcılarının yeteneğini ve bilişini geliştirmek için birbirini tamamlayan blok zinciri aracılığıyla yeni çağda halka açık veri kümelerinin ekonomik modelini ve değer yakalamayı yeniden tanımlayın.
1.AI ve İnsan İşbirlikçi Zeka:
İnsan ekiplerinin yardımcı pilot modelleriyle sorunsuz bir şekilde etkileşime girmesini sağlamak ve teşvik etmek için döngüde akıllı bir insan, yapay zeka merkezli altyapı,提供高精度数据,并迭代提高质量,以在lifecycle中生成高价值数据
Merkezi olmayan iş gücü yönetiminin verimliliğini en üst düzeye çıkaran ve dağıtılmış ekiplerden oluşan küresel bir ağ genelinde işbirliğini ve iletişimi optimize eden, Humans Ops Tool tarafından desteklenen merkezi olmayan bir pazar yeri
Verilerin İfşası, Gizlilik ve Mülkiyet
Platform, ücretli nakit akışı ve jetonlar aracılığıyla kullanıcı trafiğini ve bağlılığını derinden teşvik eder ve sürekli olarak birbirlerinden öğrenmek için hem arz hem de talebin davranışını ve geçmiş verilerini yakalayarak veri volan etkisini sürekli olarak uyarır. Algoritmalar, çok sayıda dikey segmentasyon senaryosunu kapsayan, gelecekteki ticari değeri (sabit alan madenciliği) sağlamak için veri talebi çerçevelerini önermek ve formüle etmek için kullanılır. Tüm veri işareti katılımcıları, çağrılmak ve ticarileştirilmek üzere önceden veri kümeleri sağlamaya başlayabilir ve nakit akışı ve token ödülleri alabilir ve sonuçta yeni çağda değerli bir açık AI veri ağı haline gelebilir.
Veri şifreleme ve gizlilik koruması: ZK ve FHE, işleme ve depolama için kullanıcı verilerini daha iyi şifrelemek için kullanılır.
Blockchain teknolojisi, toplama ve açıklama gibi farklı çıktılar ve bunlara karşılık gelen değerler de dahil olmak üzere verilerin katılımcılar tarafından sahipliğini izlemek ve doğrulamak için kullanılır.
Yeni ekonomik model
Yapay zekayı otomatik olarak eşleştiren küresel bir yapay zeka veri hizmeti platformu olan Meituan aracılığıyla, merkezi planlı bir ekonomiden piyasa ekonomisine geçeceğiz.
Blockchain teknolojisi ile itibar + dijital para birimi optimizasyonu uzlaşma sisteminin güvenilirliğini sağlayın, doğru eşleştirme yapmak için arz tarafındaki insan akışını sonsuz bir şekilde genişletin, böylece doğru insanlar verimli ve kaliteli olmak için doğru şeyi yapabilir. Veri etiketleme hizmetlerinin ve yoksul nüfusun örtüşmesi sayesinde, kılık değiştirmiş istihdam + finansal katılım sağlanır.
Belirteçler, sürekli öğrenmeyi ve yüksek kaliteli hizmetleri ve çıktıları teşvik etmek için kullanıcılara verilir ve aynı zamanda kullanıcıları, tüm boru hattının verimliliğini ve üretkenliğini artırmak için platform modelini optimize etmek için yüksek kaliteli ve etkili geri bildirim sağlamaya teşvik eder (İnsan ve AI karşılıklı sürekli öğrenme).
Belirteçler aracılığıyla POPW'ye göre makul fayda dağılımı ve değer yakalama, CAC'yi daha iyi azaltın ve ardından elde tutmayı artırın
Web2 dünyası açısından bakıldığında, bu, biraz Didi ve Meituan Takeaway gibi, veri açıklaması için bir dağıtım platformudur. Ancak web3 açısından bakıldığında, bu gerçek nakit akışına sahip bir Axie Infinity+YGG'dir. 2021'in boğa piyasasında, Axie ve YGG'nin birleşimi önemli sayıda üçüncü dünya kullanıcısını Web3'e getirdi ve bu tür bir oyun loncası, salgın sırasında başta Filipinler olmak üzere çok sayıda üçüncü dünya ailesini besledi. Piyasa ayrıca Axie ve YGG'ye çok iyi getiriler sağladı ve bunlar çok ilginç Alfalar. Web2 ve Web3 arasında köprü kuran bir yatırımcı olarak, gerçek işlere katkıda bulunmak için blok zinciri teknolojisini kullanan projeleri ve ekipleri desteklemeye çok istekliyiz ve ekibin gelecekteki performansını dört gözle bekliyoruz. Bu aynı zamanda çok az Web3 teknolojisinin Web2 işine kanat verebileceğini gördüğümüz yöndür.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Web2'den Web3'e: Yapay Zeka Yolunda Neden Yükselişteyim?
Yazar: Zixi.eth, Matrix Partners Çin Yatırımcı Kaynak: X (eski adıyla Twitter) @Zixi41620514
Son zamanlarda, Web2/Web3 AI parkuruna, küresel model parkurundaki açık kaynak model topluluğuna, veri parkuruna ve büyük modele hizmet eden çeşitli ara yazılımlara odaklanmaya başladım - örneğin Temel Model için endüstri modeline tam süreç hizmeti ve bazı Uygulamalar. Her türlü girişimcinin bizimle iletişim kurmasını memnuniyetle karşılıyoruz, yapay zekanın uzun vadeli bir yol olacağına inanıyoruz.
İlk sayıda, yakın zamanda ortaya koyduğumuz veri parkurundaki veri etiketleme sektörünün de bu yıl benim için çok tatmin edici bir hedef olduğunu paylaşacağım.
Yapay zeka geliştirme, ana gövde olarak veri toplama, temizleme, açıklama ve geliştirme süreçleri ile veri hazırlama ve ana gövde olarak model oluşturma, eğitim, ayarlama ve dağıtım ile algoritma geliştirme olarak ikiye ayrılabilir. Bunlar arasında, yapay zekanın yeni çağda çok modluluk, yüksek hassasiyet ve güçlü özelleştirme gibi veri için çeşitlendirilmiş ihtiyaçları nedeniyle, yapay zeka verilerinin yeni çağda insan emeğine bağımlılığı da çok yüksektir ve ayrıca verimliliği artırmak için yapay zeka ile insanlar arasındaki sorunsuz etkileşimi daha da geliştirmek gerekir. Veri etiketleme, model eğitimi için gerekli olan veri örneklerindeki özellik öğelerinin tanımlanmasını ve farklılaştırılmasını ifade eder. Yapay zekanın gelişimi henüz denetimli öğrenme aşamasında olduğundan, derin öğrenme ile temsil edilen yapay zeka algoritma modellerinin eğitim sürecinde veri çağrışım bilgilerinin ve veriler arasındaki mantığın öğrenilmesi ve doğrulanması, verilerin özellik tanımlamasına dayalı olarak gerçekleştirilir ve veri hazırlamanın ve hatta yapay zeka proje geliştirmenin temel görevlerinden biri olan verilerin açıklanması gereklidir. Veri hazırlama iş akışının geri kalanına benzer şekilde, veri etiketleme de büyük ölçüde iş gücüne bağlıdır. Uzun çalışma döngüleri ve yüksek işçilik maliyetleri, yapay zeka endüstrisinin gelişimini kısıtlayan ana faktörlerden biri haline geldi. Veri açıklama hizmetlerinin arz tarafındaki sorunlu noktalar, otomasyon araçları için pazar talebi yarattı ve akıllı veri açıklama teknolojisinin geliştirilmesini ve büyük ölçekli uygulamasını teşvik etti.
Şekil 1: Veri toplamadan yapay zeka tarafından kullanılabilir veri kümelerine
! [hJQWkT4AU2PQ3QOm8pPJJBmxxDyRyO7j0J6qvdlU.png] ("7135831" https://img.jinse.cn/7135831_watermarknone.png)
Şu anda, en büyük veri açıklaması uygulamasının aşağı akışı olan akıllı sürüş alanında, kediler ve köpekler, telefon direkleri, bebek arabaları vb. gibi çeşitli senaryoları etiketlemek için hala çok sayıda insana ihtiyaç duyulmaktadır. Örneğin, Scale AI, OpenAI için önemli bir veri sağlayıcısıdır ve OpenAI'ye metin/resim veri açıklamalarında yardımcı olmak için dünyanın dört bir yanındaki üçüncü dünya ülkelerinde kendi veri açıklama stüdyolarını kurmuşlardır.
Bununla birlikte, yapay zekanın ilerlemesiyle birlikte, iş akışındaki ön açıklama oranı giderek artmaktadır. İlk günlerde, makine öğrenimi veri kümelerini oluşturmak ve biriktirmek için veri açıklaması çoğunlukla manuel olarak yapılıyordu. Nispeten verimsiz ve maliyetli olmasına rağmen, ek açıklamalar yerinde olduğu sürece makineye sağlanan veriler büyük bir avantaja sahiptir. Zamanla, manuel açıklamanın odak noktası, maliyetleri azaltmak için kademeli olarak Amerika Birleşik Devletleri'nden Venezuela ve Filipinler gibi üçüncü dünya ülkelerine kaymıştır.
Model geliştikçe, otomatik veri açıklamalarının doğruluğu artar ve model, model verilerinin ön işlenmesi ve ardından insan açıklamasına gönderilmesi gibi manuel açıklamalara yardımcı olmak için kullanılabilir veya otomatik model tarafından sağlanan açıklama sonuçları manuel olarak gözden geçirilir ve düzeltilir. Saf manuel açıklama ile karşılaştırıldığında, yapay zeka destekli açıklama, veri açıklamalarının hızını artırır. Şu anda, Scale AI gibi dünyanın en büyük veri etiketleme şirketlerinden biri, veri etiketleme sürecine insan katılımının oranını azaltmak için çalışıyor.
Ön açıklama, bilgisayarla görme alanında iyi sonuçlar elde etmiş olsa da, yeni diller ve büyük modeller çağında, ön açıklama hala çok olgunlaşmamıştır ve insan emeğinin yerini tamamen alamaz. Sebepler aşağıdaki gibidir:1. Özellikle karmaşık görevler ve uç durumlarla uğraşırken düşük doğruluk. 2. Örnek önyargı ve model halüsinasyon sorunları. 3. Bazı dikeyler, konu uzmanları tarafından açıklamalı büyük veri kümeleri gerektirir. 4. Ön açıklamanın ölçeklenebilirliği, özellikle küçük diller veya yaygın olmayan senaryolar için zayıftır, maliyet yüksektir ve kalite düşüktür ve yine de manuel olarak tamamlanması gerekir.
Özetle, ön açıklama, kısa vadede manuel açıklamanın yerini tamamen almayacak ve ikisi bir arada var olacaktır. Manuel ek açıklama yüzdesi azalabilse de, denetçilerin açıklama işlemi sırasında veri açıklamalarını gözden geçirmeleri gerekir.
Şekil: Ön etiketleme altında veri etiketleme işlemi
! [KZJdLcjAdtw08bJNZ6Z0ZURmCjqKjsv9LM9U4HrO.png] ("7135843" https://img.jinse.cn/7135843_watermarknone.png)
Veri açıklama endüstrisi yeni değil, akıllı sürüşün yükselişiyle 17/18'de ortaya çıkmaya başladı. Aşağıdaki grafik, Çin'deki veri etiketleme sağlayıcılarının tahmini pazar büyüklüğünü göstermektedir ve Amerika Birleşik Devletleri'ndeki veri etiketleme pazar büyüklüğünün Çin'inkinin kabaca 3-5 katı olduğunu belirtmekte fayda var.
Veri etiketleme endüstrisi, son derece yüksek teknik engellere sahip bir alan gibi değil, daha çok teknik, insan ve organizasyonel yönetim engellerinin her birinin üçte birini oluşturduğu bir alan gibi nispeten parçalanmış bir pazardır. Bu alandaki temel rekabet gücü temel olarak aşağıdaki yönlere yansır:1. Fiyat 2. Kalite 3. Uzmanlık ve bilgi kapsamı (çeşitlilik?)4. hız
Fiyat açıktır, çünkü tüm insanların çok fazla ucuz veriye ihtiyacı vardır. Fiyat baskıları bir tür coğrafi arbitrajı yönlendirirken, gelişmiş Amerika Birleşik Devletleri'nde bir veri etiketini tamamlamak için maaş ödemek 1 dolara mal olabilirken, daha az gelişmiş Çin'de sadece 0,5 dolara mal olabilir ve Filipinler'de 0,1 dolara kadar düşebilir. Bu nedenle, piyasadaki çözümlerden biri, birinci dünya ülkelerine sipariş vermek ve daha sonra doğrudan işletilen stüdyolar aracılığıyla sorunu çözmek için üçüncü dünya ülkelerindeki insanları işe almaktır.
Veri kalitesinin anlaşılması da kolaydır ve büyük modeller ve akıllı sürüş alanında yüksek kaliteli veriler gereklidir. Modele beslenen verilerin kalitesi düşükse, büyük modelin performansı da düşecektir. Veri kalitesi sorununu çözmek için etkili çözümlerden biri, modelin ön etiketlemesi yoluyla ham veriler oluşturmak ve ardından manuel olarak açıklama eklemek ve ardından veri etiketlemenin kalitesini artırmak için sürekli olarak pekiştirmeli öğrenme ve insan geri bildirimi gerçekleştirmektir. Veya ekibin, alt müşteriler için veri etiketleme süreci konusunda çok net olması ve kaliteyi artırmak için veri açıklama personelinin SOP'lere göre açıklama ekleyebilmesi için standart işletim prosedürleri (SOP'ler) geliştirebilmesi gerekir.
Ancak uzmanlık ve bilgi kapsamını nasıl anlarsınız? Üç örnek verelim:
Bu, genel model altında oldukça zorlu bir iştir. Büyük metin modellerine açıklama eklemek nispeten kolay olabilir, ancak Çince / İngilizce / Fransızca / Almanca / Rusça / Arapça gibi birden çok dile açıklama ekleyebilecek kişileri bulmanız gerekir ve bir veri etiketleme şirketinin küresel ölçekte bu kadar çok dağıtılmış insanı nasıl işe alabileceği ve yönetebileceği zor olacaktır.
Voicebotlar/dijital insanlar alanında bir yapay zeka uygulaması girişimi düşünün. Startup'lar genellikle şirket içinde bir veri açıklama ekibi kurmak için zamana, insan gücüne ve paraya sahip değildir. Sichuan aksanı, Kanton aksanı, Şanghay aksanı, Kuzeydoğu aksanı vb. gibi Çince dil ailelerinin yanı sıra Kuzey Amerika İngilizcesi aksanı, İngiliz İngilizcesi aksanı ve Singapur İngilizcesi aksanı gibi İngilizce dil ailelerini etiketlemeye yardımcı olacak dış kaynaklı bir ekip bulmaları gerekiyordu. Piyasada bu görevleri yerine getirebilecek iyi bir veri açıklama stüdyosu bulmak çok zor olabilir. Doğrudan satış veya taşeronluk benimsenirse, siparişlerin alınmasından işe alıma kadar bir veya iki aylık çalışma süresi alabilir ve bu da tedarik verimliliğini ciddi şekilde etkileyecektir.
Yasal modellere odaklanan bir girişimin çok sayıda yasal veri açıklaması gerektirdiği daha niş bir alan düşünün. Hukuk alanı hala oldukça yüksek profesyonel gereksinimlere sahiptir ve yeni başlayanların aşağıdaki kriterleri karşılayan bir veri açıklama sağlayıcısı bulması gerekir:1. Yasayı anlayan ve ayrıca Çin hukukunu, Hong Kong hukukunu, Amerikan hukukunu vb. kapsaması gerekebilecek en az bir düzine insan; Çince ve İngilizce'yi anlayabilmeli; 3. Maliyet çok yüksek olamaz. Bir avukattan etiketlemeyi yapmasını isterseniz, avukatın maaşının daha yüksek olması nedeniyle işi yapmak konusunda isteksiz olabilirler. Bu nedenle, bu tür bir segmentasyon için mevcut çözüm, yalnızca okul stajyerlerini veri açıklaması üzerinde çalışmak üzere dahili olarak işe almak olabilir. Doğrudan satış ve taşeronluğun yönetim modu için, bu tür alt bölümlerin izini tamamlamak hala oldukça zordur.
Böylece, pazardaki büyük oyuncular üç kategoriye ayrılabilir:1. Büyük şirketler tarafından şirket içinde yapılır (örneğin, Baidu kitle kaynak kullanımı);2. Doğrudan/alt sözleşme modeline sahip girişimler (aşağıda analiz edilmiştir); Küçük ve orta ölçekli veri açıklama stüdyoları.
Grafik: Çin'in yapay zeka pazarındaki veri pazarının büyüklüğü
! [F1zEq2z7zALsirAXyNV94uPmTLqwewBYopHlxyI5.png] ("7135849" https://img.jinse.cn/7135849_watermarknone.png)
Konuya girmeden önce, bu alandaki mevcut lider girişimlere bir göz atalım:
İki tür şarj modeli vardır:
Tüketim tabanı: Örneğin, Scale Image görüntü başına 2 sent ve etiket başına 6 sentten başlar, Scale Video video karesi başına 13 sent ve etiket başına 3 sentten başlar, Scale Text iş başına 5 sent ve etiket başına 3 sentten başlar ve Scale Document AI iş başına 2 sent ve etiket başına 7 sentten başlar.
Sözleşmedeki veri miktarına vb. dayanan proje tabanı, aslında birim değeri yüz binlerce dolar ile on milyonlarca dolar arasında değişen proje bazlı bir gelirdir.
2022'de 290 milyon dolarlık tahmini geliri ve 7 milyar dolarlık mevcut değerlemesi ile Scale AI, dünyanın en büyük veri açıklama şirketidir. Şirketin yatırımcıları da çok lüks.
Haiti AAC'si: Çin'in Haiti AAC'si de veri açıklaması alanında önemli bir rol oynamaktadır. Şirket, veri açıklama, veri temizleme, veri analizi vb. konularda zengin deneyime sahiptir. Ancak, ayrıntılı iş modeli, ücretlendirme yöntemleri ve finansmanı hakkında bilgi henüz net değil.
Appen: Avustralyalı Appen, dünyanın önde gelen veri açıklama şirketlerinden bir diğeridir. Scale AI'ye benzer şekilde Appen, veri açıklaması, ses verisi toplama ve çeviri gibi hizmetler sunar. Şirket, müşterilere yüksek kaliteli veri açıklama hizmetleri sunmak için dünya çapında çok sayıda açıklayıcıya sahiptir. Appen'in ayrıntılı iş modeli ve finansmanı da derinlemesine incelenmeye değer.
! [xa4j0mwuoOYQ00imQe68w3BjAnA4g95Ujfgfyyt2.png] ("7135866" https://img.jinse.cn/7135866_watermarknone.png)
! [a7IUQulVILcdWIgIDUEaI03FMCYU7v9dD8na50Z7.png] ("7135867" https://img.jinse.cn/7135867_watermarknone.png)
Bu üç şirket, sırasıyla Amerika Birleşik Devletleri, Çin ve Avustralya'da bu alandaki lider konumları temsil eden küresel veri açıklama alanında önemli bir konuma sahiptir. Girişimlerin iş modellerine ve pazar rekabetine dalmadan önce, bu önde gelen şirketlerin anlaşılması, bir bütün olarak endüstrinin bağlamının daha kapsamlı bir şekilde anlaşılmasına yardımcı olacaktır.
Haiti AAC, A hissesine kote bir şirkettir, ancak tam olarak bir veri etiketleme şirketi değildir. Veri açıklaması yapmak için kendi ekibini oluşturmakla karşılaştırıldığında, Haitian esasen bir teknik servis sağlayıcıdır ve siparişleri çeşitli stüdyolara dış kaynak olarak kullanır. Haiti AAC'nin Çin'deki genişlemesinin özü şunlara bağlıdır: 1. 190'dan fazla dili kapsayan (gelirin %70-80'ini oluşturan) konuşma açıklamalarında derin bir birikime sahiptir. 2. Ölçek etkisi 3. İyi uluslararasılaşma yeteneği. Çin'de, veri etiketleme endüstrisi çok vahşi ve erken, çok dağınık ve düzensizdir ve ayrıca endüstri standartları ve normları eksikliği vardır.
! [6iWBdOeecyfMWXlJNqoFBPfQ2uR8DBFnFMCq1Lzp.png] ("7135868" https://img.jinse.cn/7135868_watermarknone.png)
! [wLae6HBKOMqrzEuPewUKwzonMRcOT3qGYE3naIit.png] ("7135871" https://img.jinse.cn/7135871_watermarknone.png)
Doğrudan satış/dış kaynak kullanımı iş modelini ve brüt kar deneyimini görmek için (Appen) ve Haiti arasındaki iş modeli karşılaştırmasına bakabiliriz.
Şekil: Doğrudan/Dış Kaynak İş Modelleri...
! [TQDXGwKEyjSFDYrMViQMs5PBpW3j7KXs4wMmU3ne.png] ("7135872" https://img.jinse.cn/7135872_watermarknone.png)
! [RUb44Sii8E9I8kPM9J4yiUFtE7U7t52KUh1s6jd1.png] ("7135873" https://img.jinse.cn/7135873_watermarknone.png)
Bu kadar çok öngörü varken, iyi hafızası olan okuyucular, başlığımızın blok zinciri ile veri açıklamasını nasıl yeniden şekillendirdiğini düşünmediler. Tam metin henüz blok zincirinden bahsetmedi, nasıl yeniden şekillendirilir?
Yapay zekanın geleceği açık ve egemen olmalı, ister veri, ister bilgi işlem gücü veya modeller olsun, yüksek kalite ve verimlilik sağlama temelinde topluma evrensel ve açık erişim sağlamalıdır. Yapay zekanın geliştirilmesine yardımcı olan tüm katılımcılar, kendi katkıları ve çıktıları için mülkiyet haklarının yanı sıra makul dağıtım ve fayda ödüllerine sahip olmalıdır.
Son yatırım şirketimiz Quest Labs, yeni çağda yapay zeka ve insanlar arasındaki ilişkiyi yeniden tanımlamayı ve sektördeki mevcut sorunlu noktaları bozmak ve çözmek için yapay zeka ve blok zinciri teknolojisini kullanmayı hedefliyor. Yapay zeka endüstri zincirinin yukarı akışında gerekli bir kürek olan veri hizmeti, Quest'in çözmek istediği ilk sorundur. Yapay zeka aracılığıyla veri üretim verimliliğini teşvik edin ve sürekli olarak yüksek değerli veriler üretmek ve yapay zeka açıklayıcılarının yeteneğini ve bilişini geliştirmek için birbirini tamamlayan blok zinciri aracılığıyla yeni çağda halka açık veri kümelerinin ekonomik modelini ve değer yakalamayı yeniden tanımlayın.
1.AI ve İnsan İşbirlikçi Zeka:
Web2 dünyası açısından bakıldığında, bu, biraz Didi ve Meituan Takeaway gibi, veri açıklaması için bir dağıtım platformudur. Ancak web3 açısından bakıldığında, bu gerçek nakit akışına sahip bir Axie Infinity+YGG'dir. 2021'in boğa piyasasında, Axie ve YGG'nin birleşimi önemli sayıda üçüncü dünya kullanıcısını Web3'e getirdi ve bu tür bir oyun loncası, salgın sırasında başta Filipinler olmak üzere çok sayıda üçüncü dünya ailesini besledi. Piyasa ayrıca Axie ve YGG'ye çok iyi getiriler sağladı ve bunlar çok ilginç Alfalar. Web2 ve Web3 arasında köprü kuran bir yatırımcı olarak, gerçek işlere katkıda bulunmak için blok zinciri teknolojisini kullanan projeleri ve ekipleri desteklemeye çok istekliyiz ve ekibin gelecekteki performansını dört gözle bekliyoruz. Bu aynı zamanda çok az Web3 teknolojisinin Web2 işine kanat verebileceğini gördüğümüz yöndür.