GPT-4 lebih baik dalam mengajukan pertanyaan daripada Anda: biarkan model besar menceritakannya kembali secara mandiri, meruntuhkan hambatan untuk berdialog dengan manusia
Dalam perkembangan terbaru di bidang kecerdasan buatan, kualitas petunjuk yang dihasilkan manusia memiliki dampak yang menentukan pada akurasi respons model bahasa besar (LLM). Rekomendasi OpenAI menyatakan bahwa pertanyaan yang tepat, terperinci, dan spesifik sangat penting untuk kinerja model bahasa besar ini. Namun, apakah rata-rata pengguna dapat memastikan bahwa pertanyaan mereka cukup jelas untuk LLM?
Penting untuk dicatat bahwa ada perbedaan yang jelas antara kemampuan alami manusia untuk memahami dan interpretasi mesin dalam situasi tertentu. Misalnya, konsep "bulan genap" bagi manusia mungkin tampak merujuk pada bulan seperti Februari, April, dll., Sementara GPT-4 mungkin salah menafsirkannya sebagai bulan dengan jumlah hari genap. Ini tidak hanya mengungkapkan keterbatasan AI dalam memahami konteks sehari-hari, tetapi juga mendorong kita untuk merenungkan bagaimana berkomunikasi lebih efektif dengan model bahasa besar ini. Dengan kemajuan teknologi kecerdasan buatan yang berkelanjutan, bagaimana menjembatani kesenjangan antara manusia dan mesin dalam pemahaman bahasa adalah topik penting untuk penelitian di masa depan.
Sebagai tanggapan, Laboratorium Kecerdasan Umum Buatan yang dipimpin oleh Profesor Gu Quanquan dari University of California, Los Angeles (UCLA) merilis laporan penelitian yang mengusulkan solusi inovatif untuk ambiguitas model bahasa besar (seperti GPT-4) dalam pemahaman masalah. Penelitian ini diselesaikan oleh Ph.D. siswa Yihe Deng, Weitong Zhang, dan Zixiang Chen.
*Alamat:
Alamat Proyek:
Inti dari skema ini adalah agar model bahasa besar mengulangi dan memperluas pertanyaan yang diajukan untuk meningkatkan akurasi jawabannya. Studi ini menemukan bahwa pertanyaan yang dirumuskan ulang oleh GPT-4 menjadi lebih rinci dan format pertanyaan lebih jelas. Metode parafrase dan perluasan ini secara signifikan meningkatkan akurasi jawaban model. Eksperimen telah menunjukkan bahwa menceritakan kembali pertanyaan dengan baik meningkatkan akurasi respons dari 50% menjadi hampir 100%. Peningkatan kinerja ini tidak hanya menunjukkan potensi model bahasa besar untuk meningkatkan diri, tetapi juga memberikan perspektif baru tentang bagaimana AI dapat memproses dan memahami bahasa manusia secara lebih efisien.
Metode
Berdasarkan temuan ini, para peneliti mengusulkan prompt yang sederhana namun efektif (): "Ulangi dan perluas pertanyaan, dan tanggapi" (RaR). Permintaan ini secara langsung meningkatkan kualitas jawaban LLM untuk pertanyaan dan menunjukkan peningkatan yang signifikan dalam penanganan masalah.
Tim peneliti juga telah mengusulkan varian RaR, yang disebut "Two-step RaR," untuk mengambil keuntungan penuh dari kemampuan model besar seperti GPT-4 untuk menceritakan kembali masalah. Pendekatan ini mengikuti dua langkah: pertama, untuk masalah tertentu, masalah parafrase dihasilkan menggunakan LLM Rephrasing khusus; Kedua, pertanyaan asli dan pertanyaan yang diceritakan kembali digabungkan untuk mendorong LLM Menanggapi untuk menjawab.
Hasil
Eksperimen pada tugas yang berbeda telah menunjukkan efektivitas yang konsisten dalam meningkatkan akurasi respons GPT4, baik (satu langkah) maupun dua langkah RaR. Khususnya, RaR telah menunjukkan peningkatan signifikan pada tugas-tugas yang seharusnya menantang untuk GPT-4, dengan akurasi mendekati 100% dalam beberapa kasus. Berdasarkan hal ini, tim peneliti telah merangkum dua kesimpulan kunci berikut:
Ulangi dan Perluas (RaR) menyediakan pendekatan plug-and-play, kotak hitam untuk mendorong yang dapat secara efektif meningkatkan kinerja LLM pada berbagai tugas.
Saat mengevaluasi kinerja LLM pada tugas Tanya Jawab, sangat penting untuk memeriksa kualitas pertanyaan.
Selanjutnya, para peneliti menggunakan Two-step RaR untuk mengeksplorasi kinerja model yang berbeda seperti GPT-4, GPT-3.5, dan Vicuna-13b-v.15. Hasil eksperimen menunjukkan bahwa untuk model dengan arsitektur yang lebih kompleks dan kekuatan pemrosesan yang lebih kuat, seperti GPT-4, metode RaR dapat secara signifikan meningkatkan akurasi dan efisiensi pemrosesan masalahnya. Untuk model yang lebih sederhana, seperti Vicuna, efektivitas strategi RaR telah ditunjukkan, meskipun pada tingkat yang lebih rendah. Berdasarkan hal ini, para peneliti lebih lanjut memeriksa kualitas pertanyaan setelah menceritakan kembali model yang berbeda. Untuk menceritakan kembali masalah model yang lebih kecil, kadang-kadang bisa ada gangguan dari maksud pertanyaan. Pertanyaan parafrase yang disediakan oleh model lanjutan seperti GPT-4 cenderung lebih konsisten dengan niat manusia dan meningkatkan respons model lain.
Temuan ini mengungkapkan fenomena penting: ada perbedaan dalam kualitas dan efektivitas masalah menceritakan kembali model bahasa pada tingkat yang berbeda. Model canggih seperti GPT-4, khususnya, mampu menceritakan kembali masalah tidak hanya untuk memberikan pemahaman yang lebih jelas tentang masalah, tetapi juga berfungsi sebagai input yang efektif untuk meningkatkan kinerja model lain yang lebih kecil.
Perbedaan dari Chain of Thought (CoT)
Untuk memahami perbedaan antara RaR dan Chain of Thought (CoT), para peneliti datang dengan formulasi matematika mereka dan menjelaskan bagaimana RaR secara matematis berbeda dari CoT dan bagaimana mereka dapat dengan mudah digabungkan.
Studi ini juga menunjukkan bahwa kualitas pertanyaan harus ditingkatkan untuk memastikan bahwa kemampuan penalaran model dapat dinilai dengan benar. Misalnya, dalam kasus "membalik koin", ditemukan bahwa tidak seperti niat manusia, GPT-4 memahami kata "flip" sebagai lemparan acak. Kesalahpahaman ini berlanjut dalam proses inferensi ketika model terpandu menggunakan "Mari kita pikirkan langkah demi langkah" untuk inferensi. Hanya setelah pertanyaan diklarifikasi, model bahasa besar akan menanggapi pertanyaan yang diharapkan.
Selanjutnya, para peneliti memperhatikan bahwa selain teks pertanyaan, contoh Tanya Jawab yang digunakan untuk beberapa CoT juga ditulis oleh manusia. Ini menimbulkan pertanyaan: bagaimana model bahasa besar (LLM) bereaksi ketika contoh-contoh yang dibangun secara artifisial ini cacat? Studi ini memberikan contoh yang menarik dan menemukan bahwa contoh buruk dari beberapa CoT tembakan dapat berdampak negatif pada LLM. Dalam kasus tugas Last Letter Concatenation, misalnya, contoh masalah yang digunakan sebelumnya menunjukkan hasil positif dalam meningkatkan kinerja model. Namun, ketika logika prompt berubah, seperti dari menemukan huruf terakhir ke menemukan huruf pertama, GPT-4 memberikan jawaban yang salah. Fenomena ini menyoroti sensitivitas model terhadap contoh manusia.
Para peneliti menemukan bahwa dengan menggunakan RaR, GPT-4 mampu memperbaiki cacat logis dalam contoh yang diberikan, sehingga meningkatkan kualitas dan ketahanan CoT beberapa tembakan.
Kesimpulan
Mungkin ada kesalahpahaman dalam komunikasi antara manusia dan model bahasa besar (LLM): pertanyaan yang tampak jelas bagi manusia mungkin masih dipahami oleh model bahasa besar seperti pertanyaan lainnya. Tim peneliti UCLA mengembangkan RaR sebagai pendekatan baru berdasarkan pertanyaan ini, mendorong LLM untuk mengulangi dan mengklarifikasi pertanyaan sebelum menjawab.
Evaluasi eksperimental RaR pada serangkaian dataset benchmark mengkonfirmasi efektivitas pendekatannya. Analisis lebih lanjut menunjukkan bahwa peningkatan kualitas masalah yang diperoleh melalui menceritakan kembali dapat ditransfer di seluruh model.
Ke depan, metode seperti RaR diharapkan untuk terus meningkat, dan integrasinya dengan metode lain seperti CoT, akan membuka jalan bagi interaksi yang lebih akurat dan efektif antara manusia dan model bahasa besar, yang pada akhirnya mendorong batas-batas interpretasi AI dan kemampuan penalaran.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
GPT-4 lebih baik dalam mengajukan pertanyaan daripada Anda: biarkan model besar menceritakannya kembali secara mandiri, meruntuhkan hambatan untuk berdialog dengan manusia
Sumber asli: Heart of the Machine
Dalam perkembangan terbaru di bidang kecerdasan buatan, kualitas petunjuk yang dihasilkan manusia memiliki dampak yang menentukan pada akurasi respons model bahasa besar (LLM). Rekomendasi OpenAI menyatakan bahwa pertanyaan yang tepat, terperinci, dan spesifik sangat penting untuk kinerja model bahasa besar ini. Namun, apakah rata-rata pengguna dapat memastikan bahwa pertanyaan mereka cukup jelas untuk LLM?
Penting untuk dicatat bahwa ada perbedaan yang jelas antara kemampuan alami manusia untuk memahami dan interpretasi mesin dalam situasi tertentu. Misalnya, konsep "bulan genap" bagi manusia mungkin tampak merujuk pada bulan seperti Februari, April, dll., Sementara GPT-4 mungkin salah menafsirkannya sebagai bulan dengan jumlah hari genap. Ini tidak hanya mengungkapkan keterbatasan AI dalam memahami konteks sehari-hari, tetapi juga mendorong kita untuk merenungkan bagaimana berkomunikasi lebih efektif dengan model bahasa besar ini. Dengan kemajuan teknologi kecerdasan buatan yang berkelanjutan, bagaimana menjembatani kesenjangan antara manusia dan mesin dalam pemahaman bahasa adalah topik penting untuk penelitian di masa depan.
Sebagai tanggapan, Laboratorium Kecerdasan Umum Buatan yang dipimpin oleh Profesor Gu Quanquan dari University of California, Los Angeles (UCLA) merilis laporan penelitian yang mengusulkan solusi inovatif untuk ambiguitas model bahasa besar (seperti GPT-4) dalam pemahaman masalah. Penelitian ini diselesaikan oleh Ph.D. siswa Yihe Deng, Weitong Zhang, dan Zixiang Chen.
Inti dari skema ini adalah agar model bahasa besar mengulangi dan memperluas pertanyaan yang diajukan untuk meningkatkan akurasi jawabannya. Studi ini menemukan bahwa pertanyaan yang dirumuskan ulang oleh GPT-4 menjadi lebih rinci dan format pertanyaan lebih jelas. Metode parafrase dan perluasan ini secara signifikan meningkatkan akurasi jawaban model. Eksperimen telah menunjukkan bahwa menceritakan kembali pertanyaan dengan baik meningkatkan akurasi respons dari 50% menjadi hampir 100%. Peningkatan kinerja ini tidak hanya menunjukkan potensi model bahasa besar untuk meningkatkan diri, tetapi juga memberikan perspektif baru tentang bagaimana AI dapat memproses dan memahami bahasa manusia secara lebih efisien.
Metode
Berdasarkan temuan ini, para peneliti mengusulkan prompt yang sederhana namun efektif (): "Ulangi dan perluas pertanyaan, dan tanggapi" (RaR). Permintaan ini secara langsung meningkatkan kualitas jawaban LLM untuk pertanyaan dan menunjukkan peningkatan yang signifikan dalam penanganan masalah.
Hasil
Ulangi dan Perluas (RaR) menyediakan pendekatan plug-and-play, kotak hitam untuk mendorong yang dapat secara efektif meningkatkan kinerja LLM pada berbagai tugas.
Saat mengevaluasi kinerja LLM pada tugas Tanya Jawab, sangat penting untuk memeriksa kualitas pertanyaan.
Perbedaan dari Chain of Thought (CoT)
Untuk memahami perbedaan antara RaR dan Chain of Thought (CoT), para peneliti datang dengan formulasi matematika mereka dan menjelaskan bagaimana RaR secara matematis berbeda dari CoT dan bagaimana mereka dapat dengan mudah digabungkan.
Kesimpulan
Mungkin ada kesalahpahaman dalam komunikasi antara manusia dan model bahasa besar (LLM): pertanyaan yang tampak jelas bagi manusia mungkin masih dipahami oleh model bahasa besar seperti pertanyaan lainnya. Tim peneliti UCLA mengembangkan RaR sebagai pendekatan baru berdasarkan pertanyaan ini, mendorong LLM untuk mengulangi dan mengklarifikasi pertanyaan sebelum menjawab.
Evaluasi eksperimental RaR pada serangkaian dataset benchmark mengkonfirmasi efektivitas pendekatannya. Analisis lebih lanjut menunjukkan bahwa peningkatan kualitas masalah yang diperoleh melalui menceritakan kembali dapat ditransfer di seluruh model.
Ke depan, metode seperti RaR diharapkan untuk terus meningkat, dan integrasinya dengan metode lain seperti CoT, akan membuka jalan bagi interaksi yang lebih akurat dan efektif antara manusia dan model bahasa besar, yang pada akhirnya mendorong batas-batas interpretasi AI dan kemampuan penalaran.