GPT-4 soru sormakta sizden daha iyidir: büyük modelin onu özerk bir şekilde yeniden anlatmasına izin verin, insanlarla diyaloğun önündeki engelleri yıkın
Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu
Yapay zeka alanındaki en son gelişmelerde, insan tarafından oluşturulan istemlerin kalitesi, büyük dil modellerinin (LLM'ler) yanıt doğruluğu üzerinde belirleyici bir etkiye sahiptir. OpenAI'nin önerileri, kesin, ayrıntılı ve spesifik soruların bu büyük dil modellerinin performansı için kritik öneme sahip olduğunu belirtir. Ancak, ortalama bir kullanıcı, sorusunun LLM için yeterince açık olduğundan emin olabilecek mi?
İnsanların doğal anlama yeteneği ile belirli durumlarda makinelerin yorumlanması arasında açık bir fark olduğunu belirtmek önemlidir. Örneğin, "çift sayılı aylar" kavramı insanlara Şubat, Nisan vb. aylara atıfta bulunuyor gibi görünebilirken, GPT-4 bunu çift sayıda gün içeren bir ay olarak yanlış yorumlayabilir. Bu, yalnızca yapay zekanın günlük bağlamları anlamadaki sınırlamalarını ortaya çıkarmakla kalmaz, aynı zamanda bu büyük dil modelleriyle nasıl daha etkili iletişim kuracağımızı düşünmemizi sağlar. Yapay zeka teknolojisinin sürekli ilerlemesiyle birlikte, dil anlamada insanlar ve makineler arasındaki boşluğun nasıl kapatılacağı, gelecekteki araştırmalar için önemli bir konudur.
Buna karşılık, Los Angeles California Üniversitesi'nden (UCLA) Profesör Gu Quanquan liderliğindeki Yapay Genel Zeka Laboratuvarı, problem anlamada büyük dil modellerinin (GPT-4 gibi) belirsizliğine yenilikçi bir çözüm öneren bir araştırma raporu yayınladı. Çalışma doktora öğrencileri Yihe Deng, Weitong Zhang ve Zixiang Chen tarafından tamamlandı.
*Adres:
Proje Adresi:
Şemanın özü, büyük dil modelinin cevaplarının doğruluğunu artırmak için sorulan soruları tekrarlamasını ve genişletmesini sağlamaktır. Çalışma, GPT-4 tarafından yeniden formüle edilen soruların daha ayrıntılı hale geldiğini ve soru formatının daha net hale geldiğini buldu. Bu başka sözcüklerle ifade etme ve genişletme yöntemi, modelin yanıtlarının doğruluğunu önemli ölçüde artırır. Deneyler, sorunun iyi bir şekilde yeniden anlatılmasının, yanıtın doğruluğunu %50'den yaklaşık %100'e çıkardığını göstermiştir. Bu performans kazanımı, yalnızca büyük dil modellerinin kendilerini geliştirme potansiyelini göstermekle kalmaz, aynı zamanda yapay zekanın insan dilini nasıl daha verimli bir şekilde işleyebileceği ve anlayabileceği konusunda yeni bir bakış açısı sağlar.
Yöntem
Bu bulgulara dayanarak, araştırmacılar basit ama etkili bir istem önermektedir (): "Soruyu yeniden ifade edin ve genişletin ve yanıtlayın" (RaR). Bu istem, LLM'nin sorulara verdiği yanıtların kalitesini doğrudan artırır ve problem çözmede önemli bir gelişme olduğunu gösterir.
Araştırma ekibi ayrıca, GPT-4 gibi büyük modellerin sorunları yeniden belirleme yeteneğinden tam olarak yararlanmak için "İki Adımlı RaR" adı verilen bir RaR çeşidi önerdi. Bu yaklaşım iki adımı takip eder: ilk olarak, belirli bir problem için, özel bir Rephrasing LLM kullanılarak bir başka sözcüklerle ifade etme problemi oluşturulur; İkincisi, orijinal soru ve yeniden anlatılan soru, bir Yanıt LLM'nin cevap vermesini istemek için birleştirilir.
Sonuçlar
Farklı görevler üzerinde yapılan deneyler, GPT4'ün hem (tek adımlı) hem de iki adımlı RaR yanıtlarının doğruluğunu artırmada tutarlı bir etkinlik göstermiştir. Özellikle, RaR, GPT-4 için aksi takdirde zorlayıcı olacak görevlerde, bazı durumlarda %100'e yaklaşan doğrulukla önemli gelişmeler göstermiştir. Buna dayanarak, araştırma ekibi aşağıdaki iki temel sonucu özetlemiştir:
Tekrarla ve Genişlet (RaR), çeşitli görevlerde LLM'lerin performansını etkili bir şekilde artırabilecek bir tak ve çalıştır, kara kutu yaklaşımı sağlar.
LLM'lerin Q&A (QA) görevlerindeki performansını değerlendirirken, soruların kalitesini kontrol etmek çok önemlidir.
Ayrıca araştırmacılar, GPT-4, GPT-3.5 ve Vicuna-13b-v.15 gibi farklı modellerin performansını keşfetmek için İki Adımlı RaR'yi kullandılar. Deneysel sonuçlar, GPT-4 gibi daha karmaşık mimarilere ve daha güçlü işlem gücüne sahip modeller için RaR yönteminin, problem işlemenin doğruluğunu ve verimliliğini önemli ölçüde artırabileceğini göstermektedir. Vicuna gibi daha basit modeller için, RaR stratejisinin etkinliği daha az ölçüde de olsa gösterilmiştir. Buna dayanarak, araştırmacılar farklı modellerin yeniden anlatımından sonra soruların kalitesini daha da incelediler. Daha küçük bir modelin yeniden anlatım problemi için, bazen sorunun niyetinde bir bozulma olabilir. GPT-4 gibi gelişmiş modeller tarafından sağlanan başka sözcüklerle ifade etme soruları, insan niyetiyle daha tutarlı olma ve diğer modellerin yanıtlarını geliştirme eğilimindedir.
Bu bulgu önemli bir olguyu ortaya koymaktadır: dil modellerinin farklı düzeylerde yeniden anlatılması sorununun niteliği ve etkinliğinde farklılıklar vardır. Özellikle GPT-4 gibi gelişmiş modeller, yalnızca sorunu daha net bir şekilde anlamalarını sağlamakla kalmaz, aynı zamanda diğer küçük modellerin performansını artırmak için etkili bir girdi görevi görür.
Düşünce Zincirinden (CoT) Farkı
RaR ve Düşünce Zinciri (CoT) arasındaki farkı anlamak için araştırmacılar matematiksel formülasyonlarını ortaya koydular ve RaR'nin matematiksel olarak CoT'den nasıl farklı olduğuna ve nasıl kolayca birleştirilebileceklerine ışık tuttular.
Bu çalışma aynı zamanda modelin akıl yürütme yeteneğinin doğru bir şekilde değerlendirilebilmesini sağlamak için soruların kalitesinin iyileştirilmesi gerektiğini önermektedir. Örneğin, "yazı tura" durumunda, GPT-4'ün insan niyetlerinden farklı olarak "çevirme" kelimesini rastgele bir atış olarak anladığı bulundu. Bu yanılgı, kılavuzlu model çıkarım için "Adım adım düşünelim" ifadesini kullandığında çıkarım sürecinde de devam eder. Ancak soru açıklığa kavuşturulduktan sonra büyük dil modeli beklenen soruya yanıt verecektir.
Ayrıca, araştırmacılar soru metnine ek olarak, birkaç atışlık CoT için kullanılan Soru-Cevap örneklerinin de insanlar tarafından yazıldığını fark ettiler. Bu şu soruyu akla getiriyor: Büyük dil modelleri (LLM'ler) yapay olarak oluşturulmuş bu örnekler kusurlu olduğunda nasıl tepki veriyor? Çalışma ilginç bir örnek sunuyor ve birkaç atışlık CoT'nin zayıf örneklerinin LLM'ler üzerinde olumsuz bir etkisi olabileceğini ortaya koyuyor. Örneğin, Son Harf Birleştirme görevi söz konusu olduğunda, daha önce kullanılan sorun örneği, model performansını iyileştirmede olumlu sonuçlar gösterdi. Ancak, son harfi bulmaktan ilk harfi bulmaya kadar istem mantığı değiştiğinde, GPT-4 yanlış cevap verir. Bu fenomen, modelin insan örneklerine olan duyarlılığını vurgulamaktadır.
Araştırmacılar, GPT-4'ün RaR'yi kullanarak belirli bir örnekteki mantıksal kusurları düzeltebildiğini ve böylece birkaç atışlık CoT'nin kalitesini ve sağlamlığını iyileştirdiğini buldular.
Son
İnsanlar ve büyük dil modelleri (LLM'ler) arasındaki iletişimde yanlış anlaşılmalar olabilir: İnsanlara açık görünen sorular, büyük dil modelleri tarafından diğer sorular olarak anlaşılabilir. UCLA'nın araştırma ekibi, RaR'yi bu soruya dayanan yeni bir yaklaşım olarak geliştirdi ve LLM'leri cevaplamadan önce soruyu tekrarlamaya ve netleştirmeye teşvik etti.
RaR'nin bir dizi kıyaslama veri seti üzerinde deneysel olarak değerlendirilmesi, yaklaşımının etkinliğini doğruladı. Daha fazla analiz, yeniden anlatım yoluyla elde edilen problem kalitesinin iyileştirilmesinin modeller arasında aktarılabileceğini göstermektedir.
İleriye dönük olarak, RaR gibi yöntemlerin gelişmeye devam etmesi bekleniyor ve bunların CoT gibi diğer yöntemlerle entegrasyonu, insanlar ve büyük dil modelleri arasında daha doğru ve etkili etkileşimlerin önünü açacak ve sonuçta yapay zekanın yorumlama ve akıl yürütme yeteneklerinin sınırlarını zorlayacak.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
GPT-4 soru sormakta sizden daha iyidir: büyük modelin onu özerk bir şekilde yeniden anlatmasına izin verin, insanlarla diyaloğun önündeki engelleri yıkın
Orijinal kaynak: Makinenin Kalbi
Yapay zeka alanındaki en son gelişmelerde, insan tarafından oluşturulan istemlerin kalitesi, büyük dil modellerinin (LLM'ler) yanıt doğruluğu üzerinde belirleyici bir etkiye sahiptir. OpenAI'nin önerileri, kesin, ayrıntılı ve spesifik soruların bu büyük dil modellerinin performansı için kritik öneme sahip olduğunu belirtir. Ancak, ortalama bir kullanıcı, sorusunun LLM için yeterince açık olduğundan emin olabilecek mi?
İnsanların doğal anlama yeteneği ile belirli durumlarda makinelerin yorumlanması arasında açık bir fark olduğunu belirtmek önemlidir. Örneğin, "çift sayılı aylar" kavramı insanlara Şubat, Nisan vb. aylara atıfta bulunuyor gibi görünebilirken, GPT-4 bunu çift sayıda gün içeren bir ay olarak yanlış yorumlayabilir. Bu, yalnızca yapay zekanın günlük bağlamları anlamadaki sınırlamalarını ortaya çıkarmakla kalmaz, aynı zamanda bu büyük dil modelleriyle nasıl daha etkili iletişim kuracağımızı düşünmemizi sağlar. Yapay zeka teknolojisinin sürekli ilerlemesiyle birlikte, dil anlamada insanlar ve makineler arasındaki boşluğun nasıl kapatılacağı, gelecekteki araştırmalar için önemli bir konudur.
Buna karşılık, Los Angeles California Üniversitesi'nden (UCLA) Profesör Gu Quanquan liderliğindeki Yapay Genel Zeka Laboratuvarı, problem anlamada büyük dil modellerinin (GPT-4 gibi) belirsizliğine yenilikçi bir çözüm öneren bir araştırma raporu yayınladı. Çalışma doktora öğrencileri Yihe Deng, Weitong Zhang ve Zixiang Chen tarafından tamamlandı.
Şemanın özü, büyük dil modelinin cevaplarının doğruluğunu artırmak için sorulan soruları tekrarlamasını ve genişletmesini sağlamaktır. Çalışma, GPT-4 tarafından yeniden formüle edilen soruların daha ayrıntılı hale geldiğini ve soru formatının daha net hale geldiğini buldu. Bu başka sözcüklerle ifade etme ve genişletme yöntemi, modelin yanıtlarının doğruluğunu önemli ölçüde artırır. Deneyler, sorunun iyi bir şekilde yeniden anlatılmasının, yanıtın doğruluğunu %50'den yaklaşık %100'e çıkardığını göstermiştir. Bu performans kazanımı, yalnızca büyük dil modellerinin kendilerini geliştirme potansiyelini göstermekle kalmaz, aynı zamanda yapay zekanın insan dilini nasıl daha verimli bir şekilde işleyebileceği ve anlayabileceği konusunda yeni bir bakış açısı sağlar.
Yöntem
Bu bulgulara dayanarak, araştırmacılar basit ama etkili bir istem önermektedir (): "Soruyu yeniden ifade edin ve genişletin ve yanıtlayın" (RaR). Bu istem, LLM'nin sorulara verdiği yanıtların kalitesini doğrudan artırır ve problem çözmede önemli bir gelişme olduğunu gösterir.
Sonuçlar
Tekrarla ve Genişlet (RaR), çeşitli görevlerde LLM'lerin performansını etkili bir şekilde artırabilecek bir tak ve çalıştır, kara kutu yaklaşımı sağlar.
LLM'lerin Q&A (QA) görevlerindeki performansını değerlendirirken, soruların kalitesini kontrol etmek çok önemlidir.
Düşünce Zincirinden (CoT) Farkı
RaR ve Düşünce Zinciri (CoT) arasındaki farkı anlamak için araştırmacılar matematiksel formülasyonlarını ortaya koydular ve RaR'nin matematiksel olarak CoT'den nasıl farklı olduğuna ve nasıl kolayca birleştirilebileceklerine ışık tuttular.
Son
İnsanlar ve büyük dil modelleri (LLM'ler) arasındaki iletişimde yanlış anlaşılmalar olabilir: İnsanlara açık görünen sorular, büyük dil modelleri tarafından diğer sorular olarak anlaşılabilir. UCLA'nın araştırma ekibi, RaR'yi bu soruya dayanan yeni bir yaklaşım olarak geliştirdi ve LLM'leri cevaplamadan önce soruyu tekrarlamaya ve netleştirmeye teşvik etti.
RaR'nin bir dizi kıyaslama veri seti üzerinde deneysel olarak değerlendirilmesi, yaklaşımının etkinliğini doğruladı. Daha fazla analiz, yeniden anlatım yoluyla elde edilen problem kalitesinin iyileştirilmesinin modeller arasında aktarılabileceğini göstermektedir.
İleriye dönük olarak, RaR gibi yöntemlerin gelişmeye devam etmesi bekleniyor ve bunların CoT gibi diğer yöntemlerle entegrasyonu, insanlar ve büyük dil modelleri arasında daha doğru ve etkili etkileşimlerin önünü açacak ve sonuçta yapay zekanın yorumlama ve akıl yürütme yeteneklerinin sınırlarını zorlayacak.