Hingga 20 kali! Kompres perintah teks model seperti ChatGPT untuk menghemat daya komputasi AI secara signifikan

2023-10-25 01:59:42

Sumber asli: AIGC Open Community

Sumber gambar: Dihasilkan oleh Unbounded AI

Dalam skenario teks panjang, model bahasa besar seperti ChatGPT sering menghadapi biaya daya komputasi yang lebih tinggi, latensi yang lebih lama, dan kinerja yang lebih buruk. Untuk mengatasi ketiga tantangan ini, Microsoft membuka sumber LongLLMLingua.

Dilaporkan bahwa prinsip teknis inti LongLLMLingua adalah untuk mencapai hingga 20 kali kompresi batas "prompt teks", dan pada saat yang sama dapat secara akurat mengevaluasi relevansi konten dalam prompt untuk masalah, menghilangkan konten yang tidak relevan dan menyimpan informasi kunci, dan mencapai tujuan mengurangi biaya dan meningkatkan efisiensi.

Hasil eksperimen menunjukkan bahwa kinerja ** prompt yang dikompresi oleh LongLLMLingua adalah 17,1% lebih tinggi daripada prompt asli, dan token yang dimasukkan ke GPT-3.5-Turbo berkurang 4 kali **. Tes LongBench dan ZeroScrolls menunjukkan penghematan biaya sebesar $ 28,5 dan $ 27,4 per 1.000 sampel.

Ketika petunjuk sekitar 10 k token dikompresi dan rasio kompresi berada dalam kisaran 2-10x, latensi ujung ke ujung dapat dikurangi sebesar 1,4-3,8x, secara signifikan mempercepat tingkat inferensi.

Alamat kertas:

Alamat Sumber Terbuka:

Dari makalah pengantar, LongLLMLingua terutama terdiri dari empat modul: kompresi kasar-halus-halus sadar masalah, penyusunan ulang dokumen, rasio kompresi dinamis dan pemulihan urutan setelah kompresi.

Modul kompresi berbutir kasar yang sadar masalah

Ide dari modul ini adalah untuk menggunakan teks pertanyaan secara kondisional, menilai seberapa relevan setiap paragraf dengan pertanyaan, dan mempertahankan paragraf yang lebih relevan.

Secara khusus, dengan menghitung tingkat kebingungan kondisional dari teks masalah dan setiap paragraf, tingkat korelasi logis antara keduanya dinilai, dan semakin rendah kebingungan kondisional, semakin tinggi relevansinya.

Atas dasar ini, tetapkan ambang batas untuk menjaga paragraf dengan kebingungan rendah dan menyaring paragraf yang tidak relevan dengan masalah. Hal ini memungkinkan kompresi berbutir kasar untuk dengan cepat menghapus sejumlah besar informasi yang berlebihan berdasarkan masalah.

Modul Penyusunan Ulang Dokumen

Penelitian telah menunjukkan bahwa di antara petunjuk, konten yang dekat dengan posisi awal dan akhir memiliki dampak terbesar pada model bahasa. Oleh karena itu, modul menyusun ulang setiap paragraf sesuai dengan relevansinya, sehingga informasi kunci muncul dalam posisi yang lebih sensitif terhadap model, mengurangi hilangnya informasi di posisi tengah.

Dengan menggunakan modul kompresi berbutir kasar untuk menghitung relevansi setiap paragraf dengan masalah, paragraf diurutkan sehingga paragraf dengan tingkat relevansi tertinggi menempati peringkat pertama. Ini semakin meningkatkan persepsi model tentang informasi penting.

Setelah mendapatkan paragraf terkait yang disusun ulang, jumlah kata dalam setiap paragraf perlu dikompresi lebih lanjut. Pada titik ini, modul rasio kompresi dinamis dengan halus menyesuaikan prompt.

Modul Rasio Kompresi Dinamis

Gunakan rasio kompresi yang lebih rendah untuk paragraf yang lebih relevan dan alokasikan lebih banyak anggaran untuk kata-kata yang dipesan, sementara gunakan rasio kompresi yang lebih tinggi untuk paragraf yang kurang relevan.

Rasio kompresi untuk setiap paragraf ditentukan secara dinamis dengan memanfaatkan asosiativitas paragraf dalam hasil kompresi berbutir kasar. Paragraf yang paling relevan memiliki rasio kompresi terendah, dan seterusnya.

Dapatkan kontrol kompresi adaptif dan halus untuk menyimpan informasi penting secara efektif. Setelah kompresi, juga perlu untuk meningkatkan keandalan hasil, yang membutuhkan modul pemulihan urutan terkompresi berikut.

Modul Pemulihan Urutan setelah Kompresi

Selama proses kompresi, beberapa kata kunci mungkin terlalu dihapus, mempengaruhi integritas informasi, dan modul dapat mendeteksi dan mengembalikan kata kunci ini.

Prinsip kerjanya adalah menggunakan hubungan subsequence antara teks sumber, teks terkompresi, dan teks yang dihasilkan untuk memulihkan frasa kata benda kunci lengkap dari hasil yang dihasilkan, memperbaiki kurangnya informasi yang dibawa oleh kompresi, dan meningkatkan akurasi hasil.

Seluruh proses agak mirip dengan alur kerja kami untuk menelusuri artikel dengan cepat, memilah-milah informasi, mengintegrasikan poin-poin penting, dll., Sehingga model dengan cepat menangkap informasi kunci dari teks dan menghasilkan ringkasan berkualitas tinggi.

LongLLMLingua data eksperimental

Para peneliti membangun dataset tanya jawab multi-dokumen berdasarkan Pertanyaan Alami, di mana setiap contoh berisi pertanyaan dan 20 dokumen terkait dari mana jawaban diperlukan.

Himpunan data ini mensimulasikan skenario mesin pencari dan Tanya Jawab dunia nyata untuk mengevaluasi kinerja Tanya Jawab model dalam dokumen panjang.

Selain itu, para peneliti menggunakan seperangkat tolok ukur pemahaman teks panjang yang lebih umum, termasuk LongBench dan ZeroSCROLLS, untuk mengevaluasi efektivitas metode dalam berbagai skenario yang lebih luas.

Diantaranya, LongBench mencakup tugas-tugas seperti Tanya Jawab dokumen tunggal, Tanya Jawab multi-dokumen, ringkasan teks, dan pembelajaran beberapa sampel, termasuk kumpulan data bahasa Inggris. ZeroSCROLLS mencakup tugas pemahaman bahasa yang khas seperti peringkasan teks, pemahaman menjawab pertanyaan, dan analisis sentimen.

Pada dataset ini, para peneliti membandingkan kinerja prompt terkompresi LongLLMLingua dengan prompt asli pada model bahasa besar. Pada saat yang sama, efektivitas LongLLMLingua dievaluasi dengan membandingkan dengan metode kompresi cepat lainnya, seperti LLMLingua berbasis teka-teki dan metode berbasis pengambilan.

Hasil eksperimen menunjukkan bahwa prompt terkompresi LongLLMLingua umumnya lebih baik daripada prompt asli dalam hal akurasi Tanya Jawab dan kualitas teks yang dihasilkan.

Misalnya, pada NaturalQuestions, kompresi 4x petunjuk meningkatkan akurasi Tanya Jawab sebesar 17,1%. Saat mengompresi petunjuk sekitar 10k token, rasio kompresi berada dalam kisaran 2-10x, dan latensi ujung ke ujung dapat dikurangi 1,4-3,8x. Ini sepenuhnya membuktikan bahwa LongLLMLingua dapat meningkatkan ekstraksi informasi kunci sambil mengompresi petunjuk.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
#GUSD Now Live on Gate
2k Popularitas
#ETH Trend Watch
26k Popularitas
#Rise of Solana Treasury Holders
18k Popularitas
#Gate Alpha CELB Points Airdrop
19k Popularitas
#Commerce Dept. Goes On-Chain
14k Popularitas

Sematkan

peta situs