Penulis: Zixi.eth, Matrix Partners China Investor Sumber: X (sebelumnya Twitter) @Zixi41620514
Baru-baru ini, saya mulai fokus pada jalur AI Web2 / Web3, komunitas model open source di jalur model global, trek data, dan berbagai middleware yang melayani model besar - seperti layanan proses penuh untuk Model Foundation ke dalam model industri, dan beberapa Aplikasi. Kami menyambut semua jenis pengusaha untuk berkomunikasi dengan kami, kami percaya bahwa AI akan menjadi jalur jangka panjang.
Dalam edisi pertama, saya akan berbagi bahwa industri pelabelan data di jalur data yang baru-baru ini kami susun juga merupakan target yang sangat memuaskan bagi saya tahun ini.
Pengembangan AI dapat dibagi menjadi persiapan data dengan proses pengumpulan data, pembersihan, anotasi, dan peningkatan sebagai badan utama, dan pengembangan algoritma dengan konstruksi model, pelatihan, penyetelan, dan penyebaran sebagai badan utama. Diantaranya, karena kebutuhan AI yang beragam di era baru akan data, seperti multimodalitas, presisi tinggi, dan kustomisasi yang kuat, ketergantungan data AI pada tenaga manusia di era baru juga sangat tinggi, dan juga perlu untuk lebih meningkatkan kelancaran interaksi antara AI dan manusia untuk meningkatkan efisiensi. Pelabelan data mengacu pada identifikasi dan diferensiasi elemen fitur dalam sampel data yang diperlukan untuk pelatihan model. Karena pengembangan AI masih dalam tahap pembelajaran yang diawasi, pembelajaran dan verifikasi informasi konotasi data dan logika antara data dalam proses pelatihan model algoritma AI yang diwakili oleh pembelajaran mendalam diwujudkan berdasarkan identifikasi fitur data, dan anotasi data diperlukan, yang merupakan salah satu tugas inti persiapan data dan bahkan pengembangan proyek kecerdasan buatan. Mirip dengan alur kerja persiapan data lainnya, pelabelan data sangat bergantung pada tenaga kerja. Siklus kerja yang panjang dan biaya tenaga kerja yang besar telah menjadi salah satu faktor utama yang membatasi perkembangan industri AI. Titik sakit di sisi penawaran layanan anotasi data telah menghasilkan permintaan pasar untuk alat otomatisasi dan mempromosikan pengembangan dan aplikasi skala besar teknologi anotasi data cerdas.
Gambar 1: Dari akuisisi data ke set data yang dapat digunakan AI
Saat ini, di bidang mengemudi cerdas, hilir dari aplikasi anotasi data terbesar, sejumlah besar manusia masih diperlukan untuk melabeli berbagai skenario, seperti kucing dan anjing, tiang telepon, kereta bayi, dll. Misalnya, Scale AI adalah penyedia data penting untuk OpenAI, dan mereka telah mendirikan studio anotasi data mereka sendiri di negara-negara dunia ketiga di seluruh dunia untuk membantu OpenAI dalam anotasi data teks / gambar.
Namun, dengan kemajuan AI, proporsi pra-anotasi dalam alur kerja secara bertahap meningkat. Pada hari-hari awal, anotasi data sebagian besar dilakukan secara manual untuk membangun dan mengakumulasi dataset pembelajaran mesin. Meskipun relatif tidak efisien dan mahal, data yang diberikan ke mesin memiliki keuntungan besar selama anotasi ada. Seiring waktu, fokus anotasi manual secara bertahap bergeser dari Amerika Serikat ke negara-negara dunia ketiga seperti Venezuela dan Filipina untuk mengurangi biaya.
Seiring perkembangan model, akurasi anotasi data otomatis meningkat, dan model dapat digunakan untuk membantu dalam anotasi manual, seperti model prapemrosesan data dan kemudian mengirimkannya ke anotasi manusia, atau hasil anotasi yang disediakan oleh model otomatis ditinjau dan diperbaiki secara manual. Dibandingkan dengan anotasi manual murni, anotasi yang dibantu AI mempercepat kecepatan anotasi data. Saat ini, salah satu perusahaan pelabelan data terbesar di dunia, seperti Scale AI, sedang berupaya mengurangi proporsi keterlibatan manusia dalam proses pelabelan data.
Meskipun pra-anotasi telah mencapai hasil yang baik di bidang visi komputer, di era baru bahasa dan model besar, pra-anotasi masih sangat belum matang dan tidak dapat sepenuhnya menggantikan tenaga manusia. Alasannya adalah sebagai berikut:1. Akurasi rendah, terutama ketika berhadapan dengan tugas-tugas kompleks dan kasus tepi. 2. Contoh bias dan masalah halusinasi model. 3. Beberapa vertikal memerlukan kumpulan data besar yang dianotasi oleh pakar materi pelajaran. 4. Skalabilitas pra-anotasi buruk, terutama untuk bahasa kecil atau skenario yang tidak biasa, biayanya tinggi dan kualitasnya buruk, dan masih perlu diselesaikan secara manual.
Singkatnya, pra-anotasi tidak akan sepenuhnya menggantikan anotasi manual dalam jangka pendek, dan keduanya akan hidup berdampingan. Meskipun persentase anotasi manual dapat menurun, auditor masih diharuskan untuk meninjau anotasi data selama proses anotasi.
Gambar: Proses pelabelan data di bawah prapelabelan
Industri anotasi data bukanlah hal baru, mulai muncul pada 17/18 dengan munculnya mengemudi cerdas. Bagan di bawah ini menunjukkan perkiraan ukuran pasar penyedia pelabelan data di Tiongkok, dan perlu disebutkan bahwa ukuran pasar pelabelan data di Amerika Serikat kira-kira 3-5 kali lipat dari Tiongkok.
Industri pelabelan data adalah pasar yang relatif terfragmentasi, tidak seperti bidang dengan hambatan teknis yang sangat tinggi, tetapi lebih seperti bidang dengan hambatan manajemen teknis, manusia dan organisasi yang masing-masing menyumbang sepertiga. Daya saing inti dalam bidang ini terutama tercermin dalam aspek-aspek berikut:1. Harga 2. Kualitas 3. Keahlian dan cakupan pengetahuan (diversity?)4. kecepatan
Harganya jelas, karena semua orang membutuhkan banyak data murah. Tekanan harga mendorong bentuk arbitrase geografis, sedangkan di Amerika Serikat yang maju, mungkin biayanya $ 1 untuk membayar gaji untuk melengkapi label data, sementara di Cina yang kurang berkembang, biayanya hanya $ 0,5, dan di Filipina mungkin biayanya hanya $ 0,1. Oleh karena itu, salah satu solusi di pasar adalah memberi perintah kepada negara-negara dunia pertama dan kemudian merekrut orang-orang di negara-negara dunia ketiga untuk menyelesaikan masalah melalui studio yang dioperasikan langsung.
Kualitas data juga mudah dipahami, dan data berkualitas tinggi diperlukan di bidang model besar dan mengemudi cerdas. Jika kualitas data yang dimasukkan ke dalam model buruk, kinerja model besar juga akan menderita. Salah satu solusi efektif untuk memecahkan masalah kualitas data adalah dengan menghasilkan data mentah melalui pra-pelabelan model, dan kemudian secara manual membuat anotasi, dan kemudian terus melakukan pembelajaran penguatan dan umpan balik manusia untuk meningkatkan kualitas pelabelan data. Atau, tim harus sangat jelas tentang proses pelabelan data untuk pelanggan hilir, dan dapat mengembangkan prosedur operasi standar (SOP) sehingga staf anotasi data dapat membuat anotasi sesuai dengan SOP untuk meningkatkan kualitas.
Tetapi bagaimana Anda memahami keahlian dan cakupan pengetahuan? Mari kita ambil tiga contoh:
Ini cukup menantang di bawah model umum. Membuat anotasi model teks besar mungkin relatif mudah, tetapi Anda harus menemukan orang yang dapat membuat anotasi beberapa bahasa seperti Cina / Inggris / Prancis / Jerman / Rusia / Arab, dan bagaimana perusahaan pelabelan data dapat merekrut dan mengelola begitu banyak orang yang didistribusikan dalam skala global akan menjadi tantangan.
Pertimbangkan startup aplikasi AI di bidang voicebots/manusia digital. Startup sering tidak punya waktu, tenaga, dan uang untuk membentuk tim anotasi data di rumah. Mereka perlu mencari tim outsourcing untuk membantu melabeli keluarga bahasa Cina seperti aksen Sichuan, aksen Kanton, aksen Shanghai, aksen Timur Laut, dll., Serta keluarga bahasa Inggris seperti aksen Inggris Amerika Utara, aksen Inggris Inggris, dan aksen Inggris Singapura. Menemukan studio anotasi data yang bagus di pasar yang dapat menangani tugas-tugas ini bisa sangat sulit. Jika penjualan langsung atau subkontrak diadopsi, mungkin diperlukan satu atau dua bulan waktu kerja dari menerima pesanan hingga rekrutmen, yang akan sangat mempengaruhi efisiensi pasokan.
Pertimbangkan area yang lebih khusus, di mana startup yang berfokus pada model hukum membutuhkan banyak anotasi data hukum. Bidang hukum masih memiliki persyaratan profesional yang cukup tinggi, dan startup perlu mencari penyedia anotasi data yang memenuhi kriteria berikut:1. Setidaknya selusin orang yang memahami hukum, dan mungkin juga perlu meliput hukum Tiongkok, hukum Hong Kong, hukum Amerika, dll.; Harus bisa mengerti bahasa Mandarin dan Inggris; 3. Biayanya tidak boleh terlalu tinggi. Jika Anda meminta pengacara untuk melakukan pelabelan, mereka mungkin enggan melakukan pekerjaan itu karena gaji pengacara yang lebih tinggi. Oleh karena itu, solusi saat ini untuk segmentasi semacam ini hanya dapat merekrut magang sekolah secara internal untuk mengerjakan anotasi data. Untuk mode manajemen penjualan langsung dan subkontrak, masih cukup sulit untuk menyelesaikan jalur subdivisi tersebut.
Dengan demikian, pemain utama di pasar dapat dibagi menjadi tiga kategori: 1. Dilakukan sendiri oleh perusahaan besar (misalnya Baidu crowdsourcing);2. Startup dengan model direct/subcontract (dianalisis di bawah); Studio anotasi data berukuran kecil dan menengah.
Sebelum kita menyelami, mari kita lihat startup terkemuka saat ini di ruang angkasa:
Skala AI: Bisnis utama Scale AI di Amerika Serikat mencakup empat aspek: anotasi data, manajemen, dan evaluasi (mengontrol kualitas data beranotasi dan meningkatkan efisiensi anotasi), otomatisasi (anotasi tambahan untuk meningkatkan efisiensi), dan sintesis data (ketika model menjadi semakin berlimpah, dan data nyata tidak cukup, perlu untuk secara otomatis mensintesis model pengumpanan data, dan kita akan berbicara tentang trek data sintetis nanti). Skala AI awalnya berfokus pada anotasi mengemudi otonom, dan dua tahun lalu, 80-90% pesanan perusahaan berasal dari mengemudi otonom (2D, 3D, LiDAR, dll.), Dan proporsi ini telah menurun dalam beberapa tahun terakhir. Sumber pesanan perusahaan adalah sebagai tanggapan terhadap tren industri pemasok, dan dalam beberapa tahun terakhir, pemerintah, e-commerce, robot, model besar, dan bidang lainnya telah berkembang pesat, ditambah dengan kemampuan tim yang tajam untuk memahami tren industri, sehingga dapat mempertahankan pangsa pasar yang tinggi di setiap segmen. Selain itu, Scale AI telah meluncurkan layanan Model as a Service-nya sendiri, seperti membantu pelanggan menyempurnakan, menghosting, dan menerapkan model.
Ada dua jenis model pengisian daya:
Basis konsumsi: Misalnya, Scale Image mulai dari 2 sen per gambar dan 6 sen per label, Scale Video mulai dari 13 sen per bingkai video dan 3 sen per label, Scale Text mulai dari 5 sen per pekerjaan dan 3 sen per label, dan Scale Document AI mulai dari 2 sen per pekerjaan dan 7 sen per label.
Basis proyek, yang didasarkan pada jumlah data dalam kontrak, dll., Sebenarnya adalah pendapatan berbasis proyek, dengan nilai unit mulai dari ratusan ribu dolar hingga puluhan juta dolar.
Dengan proyeksi pendapatan sebesar $290 juta pada tahun 2022 dan penilaian saat ini sebesar $7 miliar, Scale AI adalah perusahaan anotasi data terbesar di dunia. Investor perusahaan juga sangat mewah.
AAC Haiti: AAC Haiti China juga memainkan peran penting dalam bidang anotasi data. Perusahaan ini memiliki pengalaman yang kaya dalam anotasi data, pembersihan data, analisis data, dll. Namun, informasi tentang model bisnis terperinci, metode pengisian dan pembiayaan belum jelas.
Appen: Appen Australia adalah salah satu perusahaan anotasi data terkemuka di dunia. Mirip dengan Scale AI, Appen menyediakan layanan seperti anotasi data, pengumpulan data suara, dan terjemahan. Perusahaan ini memiliki sejumlah besar annotator di seluruh dunia untuk menyediakan layanan anotasi data berkualitas tinggi kepada pelanggan. Model bisnis dan pembiayaan Appen yang terperinci juga patut dipelajari lebih lanjut.
Ketiga perusahaan ini menempati posisi penting dalam ruang anotasi data global, masing-masing mewakili posisi terdepan di bidang ini di Amerika Serikat, Cina, dan Australia. Sebelum kita menyelami model bisnis dan persaingan pasar startup, pemahaman tentang perusahaan-perusahaan terkemuka ini akan membantu memberikan pemahaman yang lebih komprehensif tentang konteks industri secara keseluruhan.
Haitian AAC adalah perusahaan yang terdaftar di A-share, tetapi sebenarnya bukan perusahaan pelabelan data. Dibandingkan dengan membangun timnya sendiri untuk melakukan anotasi data, Haitian pada dasarnya adalah penyedia layanan teknis, outsourcing pesanan ke berbagai studio. Inti dari ekspansi AAC Haiti di Cina tergantung pada: 1. Ini memiliki akumulasi yang dalam dalam anotasi ucapan, yang mencakup lebih dari 190 bahasa (terhitung 70-80% dari pendapatan) 2. Efek skala 3. Kemampuan internasionalisasi yang baik. Di Cina, industri pelabelan data sangat liar dan awal, sangat tersebar dan tidak teratur, dan ada juga kurangnya standar dan norma industri.
Kita dapat melihat perbandingan model bisnis antara (Appen) dan Haiti untuk melihat model bisnis penjualan langsung / outsourcing dan pengalaman laba kotor.
Gambar: Model Bisnis Langsung / Outsourcing...
Dengan begitu banyak bayangan, pembaca dengan ingatan yang baik belum memikirkan bagaimana judul kami membentuk kembali anotasi data dengan blockchain. Teks lengkapnya belum berbicara tentang blockchain, bagaimana cara membentuknya kembali?
Masa depan AI harus terbuka dan berdaulat, apakah itu data, daya komputasi, atau model, itu harus menyediakan akses universal dan terbuka ke masyarakat atas dasar memastikan kualitas dan efisiensi tinggi. Semua peserta yang membantu memajukan AI harus memiliki hak kepemilikan atas kontribusi dan output mereka sendiri, serta distribusi dan imbalan manfaat yang wajar.
Perusahaan investasi kami baru-baru ini, Quest Labs, bertujuan untuk mendefinisikan kembali hubungan antara AI dan orang-orang di era baru, dan menggunakan teknologi AI dan blockchain untuk mengganggu dan memecahkan masalah yang ada di industri. Sebagai sekop yang diperlukan di hulu rantai industri AI, layanan data adalah masalah pertama yang ingin dipecahkan oleh Quest. Mempromosikan efisiensi produksi data melalui AI, dan mendefinisikan kembali model ekonomi dan pengambilan nilai kumpulan data publik di era baru melalui blockchain, yang saling melengkapi untuk terus menghasilkan data bernilai tinggi dan meningkatkan kemampuan dan kognisi annotator AI.
1.AI dan kecerdasan Kolaboratif Manusia:
Infra cerdas yang berpusat pada manusia dalam lingkaran, AI untuk memungkinkan dan memberi insentif kepada tim manusia agar berinteraksi dengan lancar dengan model co-pilot,提供高精度数据,并迭代提高质量,以在siklus hidup中生成高价值数据
Pasar terdesentralisasi, didukung oleh Alat Operasi Manusia, yang memaksimalkan efisiensi manajemen tenaga kerja terdesentralisasi dan mengoptimalkan kolaborasi dan komunikasi di seluruh jaringan global tim terdistribusi
Pengungkapan Data, Privasi, dan Kepemilikan
Platform ini sangat memberi insentif kepada lalu lintas dan adhesi pengguna melalui arus kas dan token berbayar, dan terus-menerus merangsang efek roda gila data, menangkap perilaku dan data historis dari penawaran dan permintaan untuk terus belajar satu sama lain. Algoritma digunakan untuk merekomendasikan dan merumuskan kerangka kerja permintaan data untuk memastikan nilai komersial masa depan (penambangan domain keras), yang mencakup sejumlah besar skenario segmentasi vertikal. Semua peserta tanda data dapat mulai menyediakan kumpulan data terlebih dahulu untuk dipanggil dan dikomersialkan, dan menerima arus kas dan hadiah token, yang pada akhirnya menjadi jaringan data AI terbuka yang berharga di era baru.
Enkripsi data dan perlindungan privasi: ZK dan FHE digunakan untuk mengenkripsi data pengguna dengan lebih baik untuk pemrosesan dan penyimpanan.
Teknologi Blockchain digunakan untuk melacak dan memverifikasi kepemilikan data oleh peserta, termasuk output yang berbeda seperti pengumpulan dan anotasi, dan nilai yang sesuai.
Model ekonomi baru
Melalui Meituan, platform layanan data AI global yang secara otomatis mencocokkan AI, kami akan berubah dari ekonomi terencana terpusat menjadi ekonomi pasar.
Pastikan kredibilitas reputasi + sistem penyelesaian pengoptimalan mata uang digital melalui teknologi blockchain, perluas arus orang di sisi penawaran tanpa batas untuk melakukan pencocokan yang akurat, sehingga orang yang tepat dapat melakukan hal yang benar agar efisien dan berkualitas. Melalui tumpang tindih layanan pelabelan data dan populasi miskin, pekerjaan + inklusi keuangan dicapai secara terselubung.
Token diberikan kepada pengguna untuk memberi insentif pada pembelajaran berkelanjutan dan layanan dan output berkualitas tinggi, dan pada saat yang sama memberi insentif kepada pengguna untuk memberikan umpan balik berkualitas tinggi dan efektif untuk mengoptimalkan model platform untuk meningkatkan efisiensi dan produktivitas seluruh pipa (Pembelajaran berkelanjutan bersama manusia dan AI).
Distribusi manfaat yang wajar dan penangkapan nilai menurut POPW melalui token, lebih baik mengurangi CAC, dan kemudian meningkatkan retensi
Dari perspektif dunia web2, ini adalah platform distribusi untuk anotasi data, sedikit seperti Didi dan Meituan Takeaway. Tapi dari sudut pandang web3, ini adalah Axie Infinity + YGG dengan arus kas nyata. Di pasar bull tahun 2021, kombinasi Axie dan YGG membawa sejumlah besar pengguna dunia ketiga ke Web3, dan jenis guild game ini telah memberi makan sejumlah besar keluarga dunia ketiga selama epidemi, terutama Filipina. Pasar juga telah memberi Axie dan YGG pengembalian yang sangat bagus, dan mereka adalah Alpha yang sangat menarik. Sebagai investor dalam menjembatani Web2 dan Web3, kami sangat bersedia mendukung proyek dan tim yang menggunakan teknologi blockchain untuk berkontribusi pada bisnis nyata, dan kami menantikan kinerja tim di masa depan. Ini juga merupakan arah di mana kita melihat bahwa beberapa teknologi Web3 dapat memberikan sayap untuk bisnis Web2.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Dari Web2 ke Web3: Mengapa Saya Bullish di Jalur AI
Penulis: Zixi.eth, Matrix Partners China Investor Sumber: X (sebelumnya Twitter) @Zixi41620514
Baru-baru ini, saya mulai fokus pada jalur AI Web2 / Web3, komunitas model open source di jalur model global, trek data, dan berbagai middleware yang melayani model besar - seperti layanan proses penuh untuk Model Foundation ke dalam model industri, dan beberapa Aplikasi. Kami menyambut semua jenis pengusaha untuk berkomunikasi dengan kami, kami percaya bahwa AI akan menjadi jalur jangka panjang.
Dalam edisi pertama, saya akan berbagi bahwa industri pelabelan data di jalur data yang baru-baru ini kami susun juga merupakan target yang sangat memuaskan bagi saya tahun ini.
Pengembangan AI dapat dibagi menjadi persiapan data dengan proses pengumpulan data, pembersihan, anotasi, dan peningkatan sebagai badan utama, dan pengembangan algoritma dengan konstruksi model, pelatihan, penyetelan, dan penyebaran sebagai badan utama. Diantaranya, karena kebutuhan AI yang beragam di era baru akan data, seperti multimodalitas, presisi tinggi, dan kustomisasi yang kuat, ketergantungan data AI pada tenaga manusia di era baru juga sangat tinggi, dan juga perlu untuk lebih meningkatkan kelancaran interaksi antara AI dan manusia untuk meningkatkan efisiensi. Pelabelan data mengacu pada identifikasi dan diferensiasi elemen fitur dalam sampel data yang diperlukan untuk pelatihan model. Karena pengembangan AI masih dalam tahap pembelajaran yang diawasi, pembelajaran dan verifikasi informasi konotasi data dan logika antara data dalam proses pelatihan model algoritma AI yang diwakili oleh pembelajaran mendalam diwujudkan berdasarkan identifikasi fitur data, dan anotasi data diperlukan, yang merupakan salah satu tugas inti persiapan data dan bahkan pengembangan proyek kecerdasan buatan. Mirip dengan alur kerja persiapan data lainnya, pelabelan data sangat bergantung pada tenaga kerja. Siklus kerja yang panjang dan biaya tenaga kerja yang besar telah menjadi salah satu faktor utama yang membatasi perkembangan industri AI. Titik sakit di sisi penawaran layanan anotasi data telah menghasilkan permintaan pasar untuk alat otomatisasi dan mempromosikan pengembangan dan aplikasi skala besar teknologi anotasi data cerdas.
Gambar 1: Dari akuisisi data ke set data yang dapat digunakan AI
! [hJQWkT4AU2PQ3QOm8pPJJBmxxDyRyO7j0J6qvdlU.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-aef9208402-dd1a6f-cd5cc0.webp "7135831")
Saat ini, di bidang mengemudi cerdas, hilir dari aplikasi anotasi data terbesar, sejumlah besar manusia masih diperlukan untuk melabeli berbagai skenario, seperti kucing dan anjing, tiang telepon, kereta bayi, dll. Misalnya, Scale AI adalah penyedia data penting untuk OpenAI, dan mereka telah mendirikan studio anotasi data mereka sendiri di negara-negara dunia ketiga di seluruh dunia untuk membantu OpenAI dalam anotasi data teks / gambar.
Namun, dengan kemajuan AI, proporsi pra-anotasi dalam alur kerja secara bertahap meningkat. Pada hari-hari awal, anotasi data sebagian besar dilakukan secara manual untuk membangun dan mengakumulasi dataset pembelajaran mesin. Meskipun relatif tidak efisien dan mahal, data yang diberikan ke mesin memiliki keuntungan besar selama anotasi ada. Seiring waktu, fokus anotasi manual secara bertahap bergeser dari Amerika Serikat ke negara-negara dunia ketiga seperti Venezuela dan Filipina untuk mengurangi biaya.
Seiring perkembangan model, akurasi anotasi data otomatis meningkat, dan model dapat digunakan untuk membantu dalam anotasi manual, seperti model prapemrosesan data dan kemudian mengirimkannya ke anotasi manusia, atau hasil anotasi yang disediakan oleh model otomatis ditinjau dan diperbaiki secara manual. Dibandingkan dengan anotasi manual murni, anotasi yang dibantu AI mempercepat kecepatan anotasi data. Saat ini, salah satu perusahaan pelabelan data terbesar di dunia, seperti Scale AI, sedang berupaya mengurangi proporsi keterlibatan manusia dalam proses pelabelan data.
Meskipun pra-anotasi telah mencapai hasil yang baik di bidang visi komputer, di era baru bahasa dan model besar, pra-anotasi masih sangat belum matang dan tidak dapat sepenuhnya menggantikan tenaga manusia. Alasannya adalah sebagai berikut:1. Akurasi rendah, terutama ketika berhadapan dengan tugas-tugas kompleks dan kasus tepi. 2. Contoh bias dan masalah halusinasi model. 3. Beberapa vertikal memerlukan kumpulan data besar yang dianotasi oleh pakar materi pelajaran. 4. Skalabilitas pra-anotasi buruk, terutama untuk bahasa kecil atau skenario yang tidak biasa, biayanya tinggi dan kualitasnya buruk, dan masih perlu diselesaikan secara manual.
Singkatnya, pra-anotasi tidak akan sepenuhnya menggantikan anotasi manual dalam jangka pendek, dan keduanya akan hidup berdampingan. Meskipun persentase anotasi manual dapat menurun, auditor masih diharuskan untuk meninjau anotasi data selama proses anotasi.
Gambar: Proses pelabelan data di bawah prapelabelan
! [KZJdLcjAdtw08bJNZ6Z0ZURmCjqKjsv9LM9U4HrO.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-6c94f3b716-dd1a6f-cd5cc0.webp "7135843")
Industri anotasi data bukanlah hal baru, mulai muncul pada 17/18 dengan munculnya mengemudi cerdas. Bagan di bawah ini menunjukkan perkiraan ukuran pasar penyedia pelabelan data di Tiongkok, dan perlu disebutkan bahwa ukuran pasar pelabelan data di Amerika Serikat kira-kira 3-5 kali lipat dari Tiongkok.
Industri pelabelan data adalah pasar yang relatif terfragmentasi, tidak seperti bidang dengan hambatan teknis yang sangat tinggi, tetapi lebih seperti bidang dengan hambatan manajemen teknis, manusia dan organisasi yang masing-masing menyumbang sepertiga. Daya saing inti dalam bidang ini terutama tercermin dalam aspek-aspek berikut:1. Harga 2. Kualitas 3. Keahlian dan cakupan pengetahuan (diversity?)4. kecepatan
Harganya jelas, karena semua orang membutuhkan banyak data murah. Tekanan harga mendorong bentuk arbitrase geografis, sedangkan di Amerika Serikat yang maju, mungkin biayanya $ 1 untuk membayar gaji untuk melengkapi label data, sementara di Cina yang kurang berkembang, biayanya hanya $ 0,5, dan di Filipina mungkin biayanya hanya $ 0,1. Oleh karena itu, salah satu solusi di pasar adalah memberi perintah kepada negara-negara dunia pertama dan kemudian merekrut orang-orang di negara-negara dunia ketiga untuk menyelesaikan masalah melalui studio yang dioperasikan langsung.
Kualitas data juga mudah dipahami, dan data berkualitas tinggi diperlukan di bidang model besar dan mengemudi cerdas. Jika kualitas data yang dimasukkan ke dalam model buruk, kinerja model besar juga akan menderita. Salah satu solusi efektif untuk memecahkan masalah kualitas data adalah dengan menghasilkan data mentah melalui pra-pelabelan model, dan kemudian secara manual membuat anotasi, dan kemudian terus melakukan pembelajaran penguatan dan umpan balik manusia untuk meningkatkan kualitas pelabelan data. Atau, tim harus sangat jelas tentang proses pelabelan data untuk pelanggan hilir, dan dapat mengembangkan prosedur operasi standar (SOP) sehingga staf anotasi data dapat membuat anotasi sesuai dengan SOP untuk meningkatkan kualitas.
Tetapi bagaimana Anda memahami keahlian dan cakupan pengetahuan? Mari kita ambil tiga contoh:
Ini cukup menantang di bawah model umum. Membuat anotasi model teks besar mungkin relatif mudah, tetapi Anda harus menemukan orang yang dapat membuat anotasi beberapa bahasa seperti Cina / Inggris / Prancis / Jerman / Rusia / Arab, dan bagaimana perusahaan pelabelan data dapat merekrut dan mengelola begitu banyak orang yang didistribusikan dalam skala global akan menjadi tantangan.
Pertimbangkan startup aplikasi AI di bidang voicebots/manusia digital. Startup sering tidak punya waktu, tenaga, dan uang untuk membentuk tim anotasi data di rumah. Mereka perlu mencari tim outsourcing untuk membantu melabeli keluarga bahasa Cina seperti aksen Sichuan, aksen Kanton, aksen Shanghai, aksen Timur Laut, dll., Serta keluarga bahasa Inggris seperti aksen Inggris Amerika Utara, aksen Inggris Inggris, dan aksen Inggris Singapura. Menemukan studio anotasi data yang bagus di pasar yang dapat menangani tugas-tugas ini bisa sangat sulit. Jika penjualan langsung atau subkontrak diadopsi, mungkin diperlukan satu atau dua bulan waktu kerja dari menerima pesanan hingga rekrutmen, yang akan sangat mempengaruhi efisiensi pasokan.
Pertimbangkan area yang lebih khusus, di mana startup yang berfokus pada model hukum membutuhkan banyak anotasi data hukum. Bidang hukum masih memiliki persyaratan profesional yang cukup tinggi, dan startup perlu mencari penyedia anotasi data yang memenuhi kriteria berikut:1. Setidaknya selusin orang yang memahami hukum, dan mungkin juga perlu meliput hukum Tiongkok, hukum Hong Kong, hukum Amerika, dll.; Harus bisa mengerti bahasa Mandarin dan Inggris; 3. Biayanya tidak boleh terlalu tinggi. Jika Anda meminta pengacara untuk melakukan pelabelan, mereka mungkin enggan melakukan pekerjaan itu karena gaji pengacara yang lebih tinggi. Oleh karena itu, solusi saat ini untuk segmentasi semacam ini hanya dapat merekrut magang sekolah secara internal untuk mengerjakan anotasi data. Untuk mode manajemen penjualan langsung dan subkontrak, masih cukup sulit untuk menyelesaikan jalur subdivisi tersebut.
Dengan demikian, pemain utama di pasar dapat dibagi menjadi tiga kategori: 1. Dilakukan sendiri oleh perusahaan besar (misalnya Baidu crowdsourcing);2. Startup dengan model direct/subcontract (dianalisis di bawah); Studio anotasi data berukuran kecil dan menengah.
Bagan: Ukuran pasar data di pasar AI China
! [F1zEq2z7zALsirAXyNV94uPmTLqwewBYopHlxyI5.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-edbb9fdd9b-dd1a6f-cd5cc0.webp "7135849")
Sebelum kita menyelami, mari kita lihat startup terkemuka saat ini di ruang angkasa:
Ada dua jenis model pengisian daya:
Basis konsumsi: Misalnya, Scale Image mulai dari 2 sen per gambar dan 6 sen per label, Scale Video mulai dari 13 sen per bingkai video dan 3 sen per label, Scale Text mulai dari 5 sen per pekerjaan dan 3 sen per label, dan Scale Document AI mulai dari 2 sen per pekerjaan dan 7 sen per label.
Basis proyek, yang didasarkan pada jumlah data dalam kontrak, dll., Sebenarnya adalah pendapatan berbasis proyek, dengan nilai unit mulai dari ratusan ribu dolar hingga puluhan juta dolar.
Dengan proyeksi pendapatan sebesar $290 juta pada tahun 2022 dan penilaian saat ini sebesar $7 miliar, Scale AI adalah perusahaan anotasi data terbesar di dunia. Investor perusahaan juga sangat mewah.
AAC Haiti: AAC Haiti China juga memainkan peran penting dalam bidang anotasi data. Perusahaan ini memiliki pengalaman yang kaya dalam anotasi data, pembersihan data, analisis data, dll. Namun, informasi tentang model bisnis terperinci, metode pengisian dan pembiayaan belum jelas.
Appen: Appen Australia adalah salah satu perusahaan anotasi data terkemuka di dunia. Mirip dengan Scale AI, Appen menyediakan layanan seperti anotasi data, pengumpulan data suara, dan terjemahan. Perusahaan ini memiliki sejumlah besar annotator di seluruh dunia untuk menyediakan layanan anotasi data berkualitas tinggi kepada pelanggan. Model bisnis dan pembiayaan Appen yang terperinci juga patut dipelajari lebih lanjut.
! [xa4j0mwuoOYQ00imQe68w3BjAnA4g95Ujfgfyyt2.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-2e082f1e24-dd1a6f-cd5cc0.webp "7135866")
! [a7IUQulVILcdWIgIDUEaI03FMCYU7v9dD8na50Z7.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-d87ea871ea-dd1a6f-cd5cc0.webp "7135867")
Ketiga perusahaan ini menempati posisi penting dalam ruang anotasi data global, masing-masing mewakili posisi terdepan di bidang ini di Amerika Serikat, Cina, dan Australia. Sebelum kita menyelami model bisnis dan persaingan pasar startup, pemahaman tentang perusahaan-perusahaan terkemuka ini akan membantu memberikan pemahaman yang lebih komprehensif tentang konteks industri secara keseluruhan.
Haitian AAC adalah perusahaan yang terdaftar di A-share, tetapi sebenarnya bukan perusahaan pelabelan data. Dibandingkan dengan membangun timnya sendiri untuk melakukan anotasi data, Haitian pada dasarnya adalah penyedia layanan teknis, outsourcing pesanan ke berbagai studio. Inti dari ekspansi AAC Haiti di Cina tergantung pada: 1. Ini memiliki akumulasi yang dalam dalam anotasi ucapan, yang mencakup lebih dari 190 bahasa (terhitung 70-80% dari pendapatan) 2. Efek skala 3. Kemampuan internasionalisasi yang baik. Di Cina, industri pelabelan data sangat liar dan awal, sangat tersebar dan tidak teratur, dan ada juga kurangnya standar dan norma industri.
! [6iWBdOeecyfMWXlJNqoFBPfQ2uR8DBFnFMCq1Lzp.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-5eb8a04957-dd1a6f-cd5cc0.webp "7135868")
! [wLae6HBKOMqrzEuPewUKwzonMRcOT3qGYE3naIit.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-557bc22bf7-dd1a6f-cd5cc0.webp "7135871")
Kita dapat melihat perbandingan model bisnis antara (Appen) dan Haiti untuk melihat model bisnis penjualan langsung / outsourcing dan pengalaman laba kotor.
Gambar: Model Bisnis Langsung / Outsourcing...
! [TQDXGwKEyjSFDYrMViQMs5PBpW3j7KXs4wMmU3ne.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-90760efac6-dd1a6f-cd5cc0.webp "7135872")
! [RUb44Sii8E9I8kPM9J4yiUFtE7U7t52KUh1s6jd1.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-bc79aa85ac-dd1a6f-cd5cc0.webp "7135873")
Dengan begitu banyak bayangan, pembaca dengan ingatan yang baik belum memikirkan bagaimana judul kami membentuk kembali anotasi data dengan blockchain. Teks lengkapnya belum berbicara tentang blockchain, bagaimana cara membentuknya kembali?
Masa depan AI harus terbuka dan berdaulat, apakah itu data, daya komputasi, atau model, itu harus menyediakan akses universal dan terbuka ke masyarakat atas dasar memastikan kualitas dan efisiensi tinggi. Semua peserta yang membantu memajukan AI harus memiliki hak kepemilikan atas kontribusi dan output mereka sendiri, serta distribusi dan imbalan manfaat yang wajar.
Perusahaan investasi kami baru-baru ini, Quest Labs, bertujuan untuk mendefinisikan kembali hubungan antara AI dan orang-orang di era baru, dan menggunakan teknologi AI dan blockchain untuk mengganggu dan memecahkan masalah yang ada di industri. Sebagai sekop yang diperlukan di hulu rantai industri AI, layanan data adalah masalah pertama yang ingin dipecahkan oleh Quest. Mempromosikan efisiensi produksi data melalui AI, dan mendefinisikan kembali model ekonomi dan pengambilan nilai kumpulan data publik di era baru melalui blockchain, yang saling melengkapi untuk terus menghasilkan data bernilai tinggi dan meningkatkan kemampuan dan kognisi annotator AI.
1.AI dan kecerdasan Kolaboratif Manusia:
Dari perspektif dunia web2, ini adalah platform distribusi untuk anotasi data, sedikit seperti Didi dan Meituan Takeaway. Tapi dari sudut pandang web3, ini adalah Axie Infinity + YGG dengan arus kas nyata. Di pasar bull tahun 2021, kombinasi Axie dan YGG membawa sejumlah besar pengguna dunia ketiga ke Web3, dan jenis guild game ini telah memberi makan sejumlah besar keluarga dunia ketiga selama epidemi, terutama Filipina. Pasar juga telah memberi Axie dan YGG pengembalian yang sangat bagus, dan mereka adalah Alpha yang sangat menarik. Sebagai investor dalam menjembatani Web2 dan Web3, kami sangat bersedia mendukung proyek dan tim yang menggunakan teknologi blockchain untuk berkontribusi pada bisnis nyata, dan kami menantikan kinerja tim di masa depan. Ini juga merupakan arah di mana kita melihat bahwa beberapa teknologi Web3 dapat memberikan sayap untuk bisnis Web2.