OpenAI, en son araştırma makalesini yayımlayarak, büyük dil modelleri (LLM) gibi GPT-5'in oldukça ilerlediğini belirtmesine rağmen, "AI halüsinasyonları" (Hallucinations)'nın hâlâ temel bir sorun olduğunu ve bunun asla tamamen ortadan kaldırılamayacağını ifade etti. Araştırma ekibi, belirli sorulara yanıt verirken modellerin kendine güvenle tamamen yanlış cevaplar verdiğini ortaya koyan deneyler gerçekleştirdi ve modellerin "rastgele tahmin" durumunu azaltmayı umarak yeni bir "değerlendirme mekanizması" reform önerisi sundu.
Araştırmacılar AI modelinin farklı sorularını test etti, cevaplar tamamen yanlıştı.
Araştırmacılar, yaygın olarak kullanılan bir sohbet robotuna bir doktora tezi başlığı sordu ve sonuç olarak üç yanlış cevap aldı. Ardından, doğum tarihini sordular ve robot yine üç farklı tarih verdi, sonuç yine tamamen yanlıştı.
Araştırmalar, AI modellerinin bazı verilere "çok nadir bulunan bilgileri" karşıladığında, oldukça kendine güvenerek cevaplar verdiğini ancak bu cevapların tamamen yanlış olduğunu göstermektedir.
Ön eğitim mekanizması sadece "dil yüzeyini" öğrenir, gerçekliğin doğruluğunu anlamaz.
Araştırmalar, modelin ön eğitim sürecinin, büyük miktarda metin aracılığıyla "bir sonraki kelimeyi tahmin etmeye" dayanarak gerçekleştiğini, ancak verilerde "doğru veya yanlış" şeklinde bir etiketin bulunmadığını belirtmektedir. Başka bir deyişle, model sadece dilin yüzeyini öğrenmiş, gerçeklik doğruluğunu değil.
Modelin boyutu büyüdükçe, kelime oyunları veya parantez gibi yüksek düzenlilikteki şeylerdeki hatalar yavaş yavaş kaybolacaktır.
Ancak "birinin doğum günü" gibi yüksek rastgeleliğe sahip bilgilerin dil modeli ile çıkarım yapılması mümkün değildir, bu nedenle yanılsamalar oluşabilir.
Yapay zeka modeli "saçma tahminler" yapmaya teşvik ediliyor, model değerlendirme modunun düzeltilmesi gerekiyor.
Araştırma, değerlendirme yönteminin büyük ölçüde değiştirilmesi gerektiğini vurguluyor; odak noktasının sadece "doğru veya yanlış" bakmak olmadığını, özellikle yanlış cevapları çok özgüvenle verenleri ağır şekilde cezalandırmak ve AI'nın "bilmiyorum" demesini ödüllendirmek gerektiğini belirtiyor. Başka bir deyişle, AI'nın yanlış cevap vermesi, bilmiyorum demekten daha fazla puan kaybetmesine neden olmalıdır.
Diğer taraftan, eğer "belirsiz" yanıtını verirse, doğrudan sıfır puan yerine bir miktar puan almalıdır. Ayrıca bu, sadece birkaç test ekleyerek göstermelik yapılmamalıdır; mevcut doğru cevap oranını tek başına değerlendiren sistemi köklü bir şekilde değiştirmek gerekmektedir. Değerlendirme yöntemini düzeltmezseniz, yapay zeka sadece tahmin yapmaya devam edecektir.
Araştırma sonunda, yanılsamaları azaltmak için değerlendirme sisteminden başlamanın gerektiği ve "dikkatli ve dürüst" olan test yöntemlerini gerçekten teşvik eden bir yapı kurmanın önemine vurgu yapılıyor. AI'den "her seferinde doğru yanıt vermesini" istemek yerine, AI'nın "bilmiyorum" diyebileceği bir oyun kuralı oluşturmak daha önemlidir.
(2025 En Son Beş Ana Akım LLM Tüm Analizi, Ücretler, Uygulamalar ve Güvenlik Hakkında Her Şey )
Bu makale OpenAI'nin en son araştırması: Neden GPT-5 ve diğer LLM'ler hâlâ saçmalıyor? İlk olarak Chain News ABMedia'da yayınlandı.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI'nin en son araştırması: Neden GPT-5 ve diğer LLM'ler hâlâ saçmalıyor
OpenAI, en son araştırma makalesini yayımlayarak, büyük dil modelleri (LLM) gibi GPT-5'in oldukça ilerlediğini belirtmesine rağmen, "AI halüsinasyonları" (Hallucinations)'nın hâlâ temel bir sorun olduğunu ve bunun asla tamamen ortadan kaldırılamayacağını ifade etti. Araştırma ekibi, belirli sorulara yanıt verirken modellerin kendine güvenle tamamen yanlış cevaplar verdiğini ortaya koyan deneyler gerçekleştirdi ve modellerin "rastgele tahmin" durumunu azaltmayı umarak yeni bir "değerlendirme mekanizması" reform önerisi sundu.
Araştırmacılar AI modelinin farklı sorularını test etti, cevaplar tamamen yanlıştı.
Araştırmacılar, yaygın olarak kullanılan bir sohbet robotuna bir doktora tezi başlığı sordu ve sonuç olarak üç yanlış cevap aldı. Ardından, doğum tarihini sordular ve robot yine üç farklı tarih verdi, sonuç yine tamamen yanlıştı.
Araştırmalar, AI modellerinin bazı verilere "çok nadir bulunan bilgileri" karşıladığında, oldukça kendine güvenerek cevaplar verdiğini ancak bu cevapların tamamen yanlış olduğunu göstermektedir.
Ön eğitim mekanizması sadece "dil yüzeyini" öğrenir, gerçekliğin doğruluğunu anlamaz.
Araştırmalar, modelin ön eğitim sürecinin, büyük miktarda metin aracılığıyla "bir sonraki kelimeyi tahmin etmeye" dayanarak gerçekleştiğini, ancak verilerde "doğru veya yanlış" şeklinde bir etiketin bulunmadığını belirtmektedir. Başka bir deyişle, model sadece dilin yüzeyini öğrenmiş, gerçeklik doğruluğunu değil.
Modelin boyutu büyüdükçe, kelime oyunları veya parantez gibi yüksek düzenlilikteki şeylerdeki hatalar yavaş yavaş kaybolacaktır.
Ancak "birinin doğum günü" gibi yüksek rastgeleliğe sahip bilgilerin dil modeli ile çıkarım yapılması mümkün değildir, bu nedenle yanılsamalar oluşabilir.
Yapay zeka modeli "saçma tahminler" yapmaya teşvik ediliyor, model değerlendirme modunun düzeltilmesi gerekiyor.
Araştırma, değerlendirme yönteminin büyük ölçüde değiştirilmesi gerektiğini vurguluyor; odak noktasının sadece "doğru veya yanlış" bakmak olmadığını, özellikle yanlış cevapları çok özgüvenle verenleri ağır şekilde cezalandırmak ve AI'nın "bilmiyorum" demesini ödüllendirmek gerektiğini belirtiyor. Başka bir deyişle, AI'nın yanlış cevap vermesi, bilmiyorum demekten daha fazla puan kaybetmesine neden olmalıdır.
Diğer taraftan, eğer "belirsiz" yanıtını verirse, doğrudan sıfır puan yerine bir miktar puan almalıdır. Ayrıca bu, sadece birkaç test ekleyerek göstermelik yapılmamalıdır; mevcut doğru cevap oranını tek başına değerlendiren sistemi köklü bir şekilde değiştirmek gerekmektedir. Değerlendirme yöntemini düzeltmezseniz, yapay zeka sadece tahmin yapmaya devam edecektir.
Araştırma sonunda, yanılsamaları azaltmak için değerlendirme sisteminden başlamanın gerektiği ve "dikkatli ve dürüst" olan test yöntemlerini gerçekten teşvik eden bir yapı kurmanın önemine vurgu yapılıyor. AI'den "her seferinde doğru yanıt vermesini" istemek yerine, AI'nın "bilmiyorum" diyebileceği bir oyun kuralı oluşturmak daha önemlidir.
(2025 En Son Beş Ana Akım LLM Tüm Analizi, Ücretler, Uygulamalar ve Güvenlik Hakkında Her Şey )
Bu makale OpenAI'nin en son araştırması: Neden GPT-5 ve diğer LLM'ler hâlâ saçmalıyor? İlk olarak Chain News ABMedia'da yayınlandı.