Model teks panjang paling kuat di dunia, yang dapat membaca 350.000 karakter Cina sekaligus: Baichuan2-192K sedang online

Membaca buku dengan model besar tidak pernah secepat ini.

Sumber gambar: Dihasilkan oleh Unbounded AI

Start-up model skala besar domestik menciptakan rekor baru di garis depan teknologi.

Pada tanggal 30 Oktober, Baichuan Intelligence secara resmi merilis model besar jendela panjang Baichuan2-192K, yang meningkatkan panjang jendela konteks model bahasa besar (LLM) menjadi token 192K.

Ini setara dengan memiliki proses model besar sekitar 350.000 karakter Cina sekaligus, yang 14 kali lebih lama dari GPT-4 (token 32K, sekitar 25.000 karakter) dan 4,4 kali lebih lama dari Claude 2.0 (token 100K, sekitar 80.000 karakter).

Dengan kata lain, Baichuan2-192K dapat membaca salinan Masalah Tiga Tubuh 2 sekaligus, menjadikannya model terbesar dengan jendela konteks pemrosesan terpanjang di dunia. Selain itu, ia juga secara signifikan mengungguli para pesaingnya dalam berbagai dimensi seperti kualitas pembuatan teks, pemahaman kontekstual, dan kemampuan Tanya Jawab.

Apa yang bisa dilakukan model besar yang dapat memahami teks yang sangat panjang sekaligus? Baichuan Intelligent membuat demonstrasi sederhana.

Unggah file PDF dari seluruh "Masalah Tiga Tubuh 2: Hutan Gelap", dan model Baichuan adalah 300.000 kata. Selanjutnya, jika Anda mengajukan pertanyaan tentang novel, model dapat memberikan jawaban yang ringkas dan tepat.

Terkadang kita beralih ke AI untuk meminta bantuan, bukan untuk menggunakan imajinasi mereka, tetapi untuk mengekstrak informasi yang akurat. Dengan Baichuan2-192K, kita dapat dengan cepat menguraikan lusinan atau bahkan ratusan halaman dokumen kontrak, dan membiarkan AI dengan cepat memberikan ringkasan singkat, pembulatan adalah pembacaan kecepatan kuantum:

Jadi bagaimana jika saya tiba-tiba mendapatkan tugas baru dan memiliki banyak file untuk dibaca?

Anda dapat langsung mengemas dan mengunggahnya bersama, dan model Baichuan dapat dengan mudah mengintegrasikan lima artikel berita menjadi satu.

Karena konten yang dapat dipahami oleh model besar menjadi lebih panjang, semakin banyak arah yang akan diterapkan. Seperti yang kita semua tahu, kemampuan untuk memodelkan teks panjang adalah prasyarat untuk penerapan banyak skenario. Kali ini, Baichuan telah memimpin dalam industri ini.

** Dari puluhan ribu kata hingga ratusan ribu kata, startup terkemuka bergegas untuk merebut "jendela panjang" **

Jika Anda memperhatikan penerapan model besar ke arah pemahaman teks, Anda mungkin melihat sebuah fenomena: pada awalnya, teks yang digunakan untuk mengevaluasi kemampuan model mungkin beberapa laporan keuangan dan laporan teknis, yang biasanya berkisar dari selusin hingga puluhan halaman, dan jumlah kata biasanya puluhan ribu kata. Tapi kemudian, teks ujian secara bertahap berkembang menjadi beberapa jam menit pertemuan, atau ratusan ribu kata novel, dan persaingan menjadi semakin ketat dan sulit.

Pada saat yang sama, perusahaan model besar yang mengklaim dapat memahami konteks yang lebih panjang mendapatkan daya tarik. Misalnya, beberapa waktu lalu, Anthropic, perusahaan di belakang Claude, yang mengklaim dapat mewujudkan jendela konteks token 100K, telah menerima miliaran dolar dalam pembiayaan dari Microsoft dan Google, mendorong perlombaan senjata model besar ke tingkat yang baru.

Mengapa perusahaan-perusahaan ini menantang teks panjang?

Pertama-tama, dari perspektif aplikasi, banyak pekerja yang menggunakan model besar untuk meningkatkan produktivitas mau tidak mau harus berurusan dengan teks panjang, seperti pengacara, analis, konsultan, dll., Dan semakin besar jendela konteksnya, semakin luas jangkauan hal-hal yang dapat dilakukan orang-orang ini dengan model besar; Kedua, dari sudut pandang teknis, semakin banyak informasi yang dapat disimpan jendela, semakin banyak informasi yang dapat dirujuk model ketika menghasilkan kata berikutnya, semakin kecil kemungkinan "halusinasi" akan terjadi, dan semakin akurat informasinya, yang merupakan kondisi yang diperlukan untuk implementasi teknologi model besar. Oleh karena itu, ketika mencoba untuk meningkatkan kinerja model, perusahaan juga bersaing untuk melihat siapa yang dapat membuat jendela konteks lebih besar dan dengan demikian memasukkannya ke dalam skenario aplikasi yang lebih banyak.

Seperti yang dapat Anda lihat dari beberapa contoh yang ditunjukkan sebelumnya, Baichuan2-192K unggul dalam kualitas pembuatan teks dan pemahaman kontekstual. Dan, selain hasil kualitatif ini, kita juga dapat melihat ini dalam beberapa data evaluasi kuantitatif.

Baichuan2-192K: Semakin panjang file, semakin jelas keuntungannya

Dalam evaluasi kualitas pembuatan teks, metrik yang sangat penting disebut "kebingungan": ketika kita mengambil dokumen berkualitas tinggi yang sesuai dengan kebiasaan bahasa alami manusia sebagai set tes, semakin tinggi probabilitas model menghasilkan versi Cina dari set tes, semakin kecil kebingungan model, dan semakin baik modelnya.

Set uji yang digunakan untuk menguji kebingungan model besar Baichuan disebut PG-19. Dataset ini diproduksi oleh peneliti DeepMind dan dibuat menggunakan bahan-bahan dari buku-buku Project Gutenberg, sehingga PG-19 memiliki kualitas buku yang berkualitas.

Hasil tes ditunjukkan pada gambar di bawah ini. Seperti yang Anda lihat, pada fase awal (di sebelah kiri sumbu horizontal, ketika panjang konteks lebih pendek), tingkat kebingungan Baichuan2-192K berada pada level rendah. Ketika panjang konteks meningkat, keuntungannya menjadi lebih jelas, dan bahkan kebingungan terus berkurang. Ini menunjukkan bahwa Baichuan2-192K lebih mampu mempertahankan kualitas pembuatan teks tingkat buku dalam konteks yang panjang.

Dalam hal pemahaman kontekstual, kinerja Baichuan2-192K juga sangat mengesankan.

Kompetensi ini dinilai menggunakan Long, tolok ukur pemahaman teks jendela panjang yang otoritatif. Long adalah daftar yang dirilis oleh University of California, Berkeley dan universitas lain untuk evaluasi model jendela panjang, yang terutama mengukur kemampuan model untuk mengingat dan memahami konten jendela panjang, dan semakin tinggi skor model, semakin baik.

Seperti yang dapat Anda lihat dari hasil evaluasi pada grafik di bawah ini, Baichuan2-192K telah mampu mempertahankan kinerja tinggi yang konsisten seiring dengan meningkatnya panjang konteks, bahkan setelah panjang jendela melebihi 100K. Sebaliknya, kinerja keseluruhan Claude 2 turun drastis setelah panjang jendela lebih dari 80K.

Selain itu, model ini telah diuji pada Dureader, NarrativeQA, TriviaQA, LSHT dan set evaluasi lainnya dari Q&A teks panjang dan abstrak dalam bahasa Cina dan Inggris. Hasilnya menunjukkan bahwa Baichuan 2-192K juga berkinerja baik, mengungguli model lain di sebagian besar tugas evaluasi teks panjang.

Singkatnya, semakin lama konten diproses, semakin baik kinerja relatif model besar Baichuan.

** 192K konteks super panjang, bagaimana Baichuan melakukannya? **

Ini adalah konsensus dalam industri AI bahwa memperluas jendela konteks dapat secara efektif meningkatkan kinerja model besar, tetapi jendela konteks ultra-panjang berarti kebutuhan daya komputasi yang lebih tinggi dan tekanan memori yang lebih besar.

Untuk mengurangi tekanan ini, beberapa metode kompromi telah muncul di industri, seperti membuat model lebih kecil; Biarkan model secara aktif meninggalkan teks sebelumnya dengan menggeser jendela, dll., Dan hanya mempertahankan mekanisme perhatian untuk input terbaru; Dengan downsampling konteks atau RAG (Retrieval Enhanced Generation), mekanisme perhatian yang hanya mempertahankan sebagian input, dan sebagainya.

Meskipun metode ini dapat menambah panjang jendela konteks, semuanya merusak kinerja model ke berbagai tingkat. Dengan kata lain, mereka mengorbankan kinerja aspek lain dari model dengan imbalan panjang jendela konteks, seperti ketidakmampuan model untuk menjawab pertanyaan kompleks berdasarkan informasi teks lengkap, dan kesulitan mempertimbangkan jawaban di beberapa teks.

Baichaun2-192K ** yang dirilis oleh Baichuan kali ini mencapai keseimbangan antara panjang jendela dan kinerja model melalui optimalisasi algoritma dan rekayasa tertinggi, dan mencapai peningkatan panjang jendela dan kinerja model secara simultan**.

Dalam hal algoritma, Baichuan Intelligent mengusulkan skema ekstrapolasi untuk pengkodean posisi dinamis RoPE dan ALiBi, yang dapat melakukan berbagai tingkat interpolasi dinamis Attention-mask ALiBi_mask dengan resolusi berbeda, yang dapat meningkatkan kemampuan pemodelan model untuk mengandalkan urutan panjang sambil memastikan resolusi.

Dalam hal teknik, berdasarkan kerangka pelatihan terdistribusi yang dikembangkan sendiri, Baichuan Intelligent mengintegrasikan semua teknologi pengoptimalan canggih di pasar, termasuk paralelisme tensor, paralelisme aliran, paralelisme urutan, fungsi komputasi ulang dan offload, dll., Untuk membuat satu set komprehensif solusi terdistribusi paralel 4D. Solusi ini dapat secara otomatis menemukan strategi terdistribusi yang paling sesuai dengan situasi beban tertentu, yang sangat mengurangi pendudukan memori dalam proses inferensi jendela panjang.

** Melawan pertempuran model besar, cepat **

Didirikan pada bulan April tahun ini, Baichuan Intelligence hampir dapat dikatakan sebagai startup model skala besar dengan iterasi teknologi tercepat di industri. Hanya dalam waktu setengah tahun sejak didirikan, perusahaan telah merilis empat model komersial sumber terbuka dan gratis, Baichuan-7B/13B dan Baichuan2-7B/13B, serta dua model sumber tertutup, Baichuan-53B dan Baichuan2-53B.

Rata-rata, model besar baru dirilis setiap bulan.

Seri model besar Baichuan mengintegrasikan pemahaman niat, pengambilan informasi, dan teknologi pembelajaran penguatan, dikombinasikan dengan penyetelan halus yang diawasi dan penyelarasan niat manusia, dan berkinerja baik di bidang penjawab pertanyaan pengetahuan dan pembuatan teks. Model-model besar ini juga disukai di industri karena kemampuannya: jumlah kumulatif unduhan seri model open source Baichuan di komunitas open source utama telah melebihi 6 juta; Baichuan 2 berada di depan Llama 2 dalam semua dimensi, memimpin pengembangan ekosistem open source China.

Pada tanggal 31 Agustus, Baichuan Intelligent memimpin dalam meloloskan "Tindakan Sementara untuk Manajemen Layanan Kecerdasan Buatan Generatif", dan merupakan satu-satunya perusahaan model skala besar yang didirikan tahun ini di antara batch pertama dari 8 perusahaan. Pada tanggal 25 September, Baichuan Intelligent membuka antarmuka API Baichuan, secara resmi memasuki bidang To B, dan memulai proses komersialisasi.

Dapat dikatakan bahwa dari penelitian dan pengembangan teknologi hingga pendaratan, kecepatan Baichuan cukup cepat.

Baichuan2-192K yang baru saja dirilis telah secara resmi memulai uji beta tertutup dan akan terbuka untuk mitra inti dalam bentuk panggilan API. Baichuan mengatakan bahwa mereka telah mencapai kerja sama dengan media keuangan dan firma hukum, dan menerapkan kemampuan konteks panjang terkemuka Baichuan2-192K ke skenario tertentu seperti media, keuangan, dan hukum, dan akan segera diberikan kepada pengguna perusahaan dalam bentuk panggilan API dan penyebaran yang diprivatisasi.

Setelah dibuka sepenuhnya dalam bentuk API, Baichuan2-192K dapat diintegrasikan secara mendalam dengan sejumlah besar skenario vertikal, berperan dalam pekerjaan, kehidupan, dan pembelajaran orang, dan membantu pengguna industri sangat meningkatkan efisiensi. Baichuan2-192K dapat memproses dan menganalisis ratusan halaman materi sekaligus, yang sangat membantu untuk skenario dunia nyata seperti peringkasan dokumen bentuk panjang, tinjauan dokumen bentuk panjang, artikel bentuk panjang atau penulisan laporan, dan bantuan pemrograman yang kompleks.

Sebelumnya, Wang Xiaochuan, pendiri dan CEO Baichuan Intelligence, telah mengungkapkan bahwa pada paruh kedua tahun ini, Baichuan akan meluncurkan model besar tingkat 100 miliar, dan diharapkan akan ada penyebaran aplikasi super C-end tahun depan.

Menghadapi kesenjangan dengan OpenAI, Wang Xiaochuan mengakui bahwa memang ada kesenjangan antara kami dan OpenAI dalam hal cita-cita, tujuan OpenAI adalah untuk menjelajahi langit-langit kecerdasan, dan mereka bahkan berharap untuk merancang teknologi yang menghubungkan 10 juta GPU bersama-sama. Namun, dalam hal aplikasi, kita akan lebih cepat daripada Amerika Serikat, dan aplikasi serta pengalaman ekologis yang terakumulasi di era Internet dapat membuat kita melangkah lebih cepat dan lebih jauh, sehingga konsep Baichuan untuk membuat model besar disebut "** Satu langkah lebih lambat pada ideal, tiga langkah lebih cepat di tanah **".

Dari sudut pandang ini, Baichuan2-192K merupakan perpanjangan dari konsep ini, dan jendela konteks terpanjang di dunia tidak diragukan lagi akan mempercepat proses teknologi model besar cerdas Baichuan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 1
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)