OpenAI'nin çözemediği sorun, Kansas Üniversitesi'ndeki bir araştırma ekibi tarafından çözüldü mü? Geliştirdikleri akademik yapay zeka içerik dedektörü %98'e varan doğruluk oranına sahip. Bu teknoloji akademik çevrelerde yaygın olarak teşvik edilirse, AI makalelerinin çoğalması etkili bir şekilde hafifletilebilir.
Artık AI metin dedektörleriyle, AI tarafından oluşturulan metin ile insan metni arasında etkili bir ayrım yapmanın neredeyse hiçbir yolu yok.
OpenAI tarafından geliştirilen algılama aracı bile, algılama doğruluğu çok düşük olduğu için piyasaya sürüldükten altı ay sonra sessizce çevrimdışıydı.
Ancak son zamanlarda Nature, Kansas Üniversitesi'ndeki bir ekibin araştırma sonuçlarını bildirdi ve bir makalenin yapay zeka tarafından oluşturulan içerik içerip içermediğini %98'e varan doğruluk oranıyla etkili bir şekilde ayırt edebilen akademik bir yapay zeka algılama sistemi geliştirdiler!
Makale adresi:
Araştırma ekibinin temel fikri, genel bir dedektör oluşturmaya devam etmek değil, yalnızca belirli bir alandaki akademik makaleler için gerçekten yararlı bir AI metin dedektörü oluşturmaktır.
Adres:
Araştırmacılar, algılama yazılımını belirli yazılı metin türleri için özelleştirmenin, evrensel bir AI dedektörü geliştirmenin teknik bir yolu olabileceğini söylüyor.
"Belirli bir alan için hızlı ve kolay bir şekilde bir denetim sistemi oluşturabiliyorsanız, farklı alanlar için böyle bir sistem oluşturmak o kadar da zor değildir."
Araştırmacılar, makalenin yazı stilinin 20 temel özelliğini çıkardılar ve bu özellikleri eğitim için XGBoost modeline beslediler, bu da insan ve yapay zeka metni arasında ayrım yapmayı mümkün kıldı.
Ve bu yirmi temel özellik, cümle uzunluğundaki değişiklikleri, belirli kelimelerin ve noktalama işaretlerinin ne sıklıkta kullanıldığını vb. içerir.
Araştırmacılara göre, "sadece az sayıda özellik kullanılarak çok yüksek bir doğruluk oranı elde edilebilir".
%98'e kadar doğru
En son çalışmalarında, dedektör, Amerikan Kimya Derneği (ACS) tarafından yayınlanan on kimya dergisi makalesinin giriş bölümünde eğitildi.
Araştırma ekibi "Giriş" bölümünü seçti çünkü ChatGPT'nin arka plan literatürüne erişimi olsaydı, makalenin bu bölümünün yazılması oldukça kolay olurdu.
Araştırmacılar, aracı insan tarafından yazılmış metin olarak yayınlanmış 100 alıntıyla eğitti ve ardından ChatGPT-3.5'ten bir ACS günlüğü tarzında 200 alıntı yazmasını istedi.
GPT-3.5 tarafından yazılan 200 giriş için 100'üne GPT-3.5 makale başlıkları verilirken, diğer 100 makale için yazmaya temel olarak özetler sağlandı.
Son olarak, dedektörün aynı dergide hem insan tarafından yazılmış hem de yapay zeka tarafından oluşturulan alıntıları test etmesini sağlarken.
Dedektör, ChatGPT-3.5'i başlığa göre giriş bölümünde %100 doğrulukla tanımladı. Özet yazımına dayalı olarak ChatGPT tarafından oluşturulan alıntılar için doğruluk oranı %98 ile biraz daha düşüktür.
Araç, GPT-4 tarafından yazılan metinler için eşit derecede etkilidir.
Buna karşılık, genel amaçlı yapay zeka dedektörü ZeroGPT, kullanılan ChatGPT sürümüne ve alıntının makalenin başlığına mı yoksa özetine göre mi oluşturulduğuna bağlı olarak yalnızca yapay zeka tarafından yazılmış alıntıları yaklaşık %35-65 doğruluk oranıyla tanır.
OpenAI tarafından yapılan metin sınıflandırıcı aracı (OpenAI'nin yayınlandığı sırada kaldırdığı) da iyi performans göstermedi ve yapay zeka tarafından yazılan alıntıları tanımada yalnızca %10-55 doğrulukla çalıştı.
Bu yeni ChatGPT dedektörü, eğitimsiz dergilerle uğraşırken bile iyi performans gösterir.
Ayrıca, AI dedektörünün istemlerini karıştırmak için özel olarak oluşturulmuş AI metnini de tanıyabilir.
Bununla birlikte, algılama sistemi bilimsel dergi makaleleri için çok iyi performans gösterirken, üniversite gazetelerindeki haber makalelerini tespit etmek için kullanıldığında, tanıma idealden daha azdır.
HTW Berlin Uygulamalı Bilimler Üniversitesi'nde akademik intihal üzerine çalışan bir bilgisayar bilimcisi olan Debora Weber-Wulff, araştırmacıların yaptıklarının "çok büyüleyici" olduğunu söyleyerek çalışmadan övgüyle bahsetti.
Deneme Detayları
Araştırmacılar tarafından kullanılan metodoloji, 20 temel özelliğe ve XGBoost algoritmasına dayanmaktadır.
Çıkarılan 20 özellik şunları içerir:
(1) Paragraf başına cümle sayısı, (2) Paragraf başına kelime sayısı, (3) Parantez varlığı, (4) Kısa çizgilerin varlığı, (5) Noktalı virgül veya iki nokta üst üste varlığı, (6) Soru işaretlerinin bulunması, (7) Kesme işaretlerinin bulunması, (8) Cümle uzunluğunun standart sapması, (9) Paragraflarda ardışık cümlelerin (ortalama) uzunluk farkı, (10) 11 kelimeden az cümle bulunması, (11) 34 kelimeden fazla cümle bulunması, (12) Sayıların varlığı, (13) Paragraf metninde (noktalara kıyasla) iki kat daha fazla büyük harf vardır ve şu kelimeler mevcuttur: (14) rağmen, (15) ama, (16) ama, (17) çünkü, (18) bu, (19) başkası veya araştırmacı, (20), vb.
Dedektörü XGBoost ile eğitmenin ayrıntılı süreci, orijinal makalenin Deneysel Prosedür bölümünde bulunabilir.
Yazar daha önce de benzer bir çalışma yapmıştı, ancak orijinal çalışmanın kapsamı çok sınırlıydı.
Bu umut verici yöntemi kimya dergilerine uygulamak için, alandaki birden fazla dergiden çeşitli makalelere dayalı bir inceleme gereklidir.
Ek olarak, yapay zeka metnini algılama yeteneği, dil modeline sağlanan istemlerden etkilenir, bu nedenle yapay zeka yazımını algılamak için tasarlanmış herhangi bir yöntem, önceki çalışmalarda değerlendirilmemiş bir değişken olan yapay zekanın kullanımını karıştırabilecek istemlere karşı test edilmelidir.
Son olarak, GPT-3.5'e göre önemli bir gelişme olan ChatGPT'nin yeni bir sürümü olan GPT-4 piyasaya sürüldü. Yapay zeka metin algılayıcılarının, GPT-4 gibi dil modellerinin yeni sürümlerinden gelen metinlere karşı etkili olması gerekir.
Yapay zeka algılayıcısının kapsamını genişletmek için, burada veri toplama 13 farklı dergiden ve 3 farklı yayıncıdan, farklı yapay zeka istemlerinden ve farklı yapay zeka metin oluşturma modellerinden gelir.
Gerçek insan metni ve yapay zeka tarafından oluşturulan metni kullanarak XGBoost sınıflandırıcısını eğitin. Daha sonra modeli insan yazısı, yapay zeka istemleri ve GPT-3.5 ve GPT-4 gibi yöntemlerle değerlendirmek için yeni paradigmalar oluşturulur.
Sonuçlar, bu yazıda önerilen bu basit yöntemin çok etkili olduğunu göstermektedir. Komut istemine ve modele bağlı olarak yapay zeka tarafından oluşturulan metni tanımada %98-100 doğruluk oranına sahiptir. Buna karşılık, OpenAI'nin en son sınıflandırıcısı %10 ile %56 arasında bir doğruluk oranına sahiptir.
Bu makaledeki dedektör, bilim camiasının ChatGPT'nin kimya dergilerine penetrasyonunu değerlendirmesine, kullanımının sonuçlarını belirlemesine ve sorunlar ortaya çıktığında hızlı bir şekilde azaltma stratejileri uygulamasına olanak tanıyacak.
Sonuçlar ve Tartışma
Yazarlar, Amerikan Kimya Derneği'nin (ACS) 10 kimya dergisinden bir insan yazısı örneği seçtiler.
Bunlar arasında İnorganik Kimya, Analitik Kimya, Fiziksel Kimya Dergisi A, Organik Kimya Dergisi, ACS Omega, Kimya Eğitimi Dergisi, ACS Nano, Çevre Bilimi ve Teknolojisi, Toksikolojik Kimya Çalışmaları ve ACS Kimyasal Biyoloji bulunmaktadır.
Her dergide yer alan 10 makalenin giriş bölümü kullanılarak eğitim setinde toplam 100 adet insan yazısı örneği yer almıştır. Giriş bölümü seçildi çünkü bu, uygun yönlendirmeyle makalenin ChatGPT tarafından yazılma olasılığı en yüksek olan kısmıdır.
Dergi başına sadece 10 makale kullanmak alışılmadık derecede küçük bir veri kümesidir, ancak yazarlar bunun bir sorun olduğunu düşünmüyorlar, tam tersi, bu kadar küçük bir eğitim seti ile etkili bir model geliştirilebileceğini varsayarsak, yöntem minimum bilgi işlem gücü ile hızlı bir şekilde dağıtılabilir.
Benzer modeller 10 milyon belge kullanılarak eğitildi.
İstem tasarımı, bu çalışmalarda önemli bir unsurdur. İnsan tarafından yazılan her metin için, AI karşılaştırıcısı, her ikisi de ChatGPT'den bir kimyager gibi yazmasını istemek için tasarlanmış iki farklı istem kullanarak metni oluşturur.
İpucu 1: "Bir ACS dergisi tarzında xxx başlıklı bir makale için 300 ila 400 kelimelik bir giriş yazın."
İpucu 2: "Lütfen bu özeti içeren makale için bir ACS dergisi tarzında 300 ila 400 kelimelik bir giriş yazınız."
Beklendiği gibi, ChatGPT bu bölümde özetteki birçok önemli gerçeği ve kelime dağarcığını girişe dahil etti.
Eğitim veri kümesinin tamamı, yapay olarak oluşturulmuş 100 giriş ve ChatGPT tarafından oluşturulan 200 giriş içerir; Her paragraf bir "yazı örneği" haline gelir.
Her paragraftan paragrafın karmaşıklığı, cümle uzunluğundaki varyasyonlar, çeşitli noktalama işaretlerinin kullanımı ve insan bilim adamlarının veya ChatGPT'nin yazılarında daha sık görünebilecek "moda sözcükler" ile ilgili 20 özellikten oluşan bir liste çıkarıldı.
Model, bir arada bırakma çapraz doğrulama stratejisi kullanılarak optimize edilmiştir.
Yukarıdaki tablo, tam belge düzeyi ve paragraf düzeyi dahil olmak üzere bu yazma örneği sınıflandırmaları için eğitimin sonuçlarını göstermektedir.
Doğru bir şekilde sınıflandırılması en kolay metin kategorisi, ChatGPT tarafından istem 1 (başlık) altında oluşturulan giriştir.
Model, tek tek paragraf düzeyinde %99 ve belge düzeyinde %100 doğrudur.
İstem 2'nin (özet) etkisi altında ChatGPT metninin sınıflandırma doğruluğu biraz daha düşüktür.
İnsan tarafından oluşturulan metnin doğru şekilde dağıtılması daha zordur, ancak doğruluğu yine de oldukça iyidir. Bir grup olarak, insanlar ChatGPT'den daha çeşitli bir yazı stiline sahiptir ve bu da bu yöntemi kullanarak yazı örneklerini düzgün bir şekilde sınıflandırmayı zorlaştırabilir.
Deneyin bir sonraki aşaması, modeli eğitimde kullanılmayan yeni belgelerle test etmektir.
Yazarlar hem kolay hem de zor testler tasarladılar.
Basit test, eğitim verileriyle aynı nitelikteki test verilerini kullanır (aynı dergiden farklı makaleler seçer) ve ChatGPT'yi yönlendirmek için yeni seçilen makale başlığını ve özetini kullanır.
Ve zor testte, yapay zeka metni oluşturmak için GPT-3.5 yerine GPT-4 kullanılıyor, GPT-4'ün GPT-3.5'ten daha iyi olduğu bilindiğinden, sınıflandırma doğruluğu düşecek mi?
Yukarıdaki tablo sınıflandırmanın sonuçlarını göstermektedir. Önceki sonuçlara kıyasla performansta neredeyse hiç düşüş yoktur.
Tam belge düzeyinde, insan tarafından oluşturulan metnin sınıflandırma doğruluğu %94'e, istem 2'de yapay zeka tarafından oluşturulan metnin doğruluğu %98'e ve istem 1'deki yapay zeka metin sınıflandırmasının doğruluğu %100'e ulaşır.
Eğitim ve test setleri de paragraf düzeyinde sınıflandırma doğruluğu açısından çok benzerdir.
Alttaki veriler, GPT-3.5 metin özellikleriyle eğitilmiş bir model GPT-4 metnini sınıflandırdığında sonuçları gösterir. Tüm kategorilerde sınıflandırma doğruluğunda herhangi bir bozulma olmadı, bu çok iyi bir sonuçtur ve yöntemin GPT-3.5 ve GPT-4 üzerindeki etkinliğini göstermektedir.
Bu yöntemin genel doğruluğu övgüye değer olsa da, değerini mevcut AI metin dedektörleriyle karşılaştırarak değerlendirmek en iyisidir. Burada, önde gelen tespit araçlarından ikisi aynı test seti verileri kullanılarak test edilmiştir.
İlk araç, ChatGPT'nin yapımcısı OpenAI tarafından sağlanan bir metin sınıflandırıcıdır. OpenAI, sınıflandırıcının mükemmel olmadığını kabul ediyor, ancak yine de en iyi halka açık ürünü.
İkinci algılama aracı ZeroGPT'dir. Üreticisi, AI metnini %98 doğrulukla algıladığını iddia ediyor ve araç 10 milyon belge üzerinde eğitildi. Birçok güncel değerlendirmede en iyi performans gösteren sınıflandırıcılardan biridir. Ayrıca ZeroGPT yapımcıları, yöntemlerinin hem GPT-3.5 hem de GPT-4 için çalıştığını söylüyor.
Yukarıdaki diyagramda, bu makaledeki araçların ve yukarıdaki iki ürünün performansı tam belge düzeyinde gösterilmektedir.
Her üç dedektör de insan metninin tanınmasında benzer yüksek doğruluğa sahiptir; Ancak, yapay zeka tarafından oluşturulan metnin değerlendirilmesi söz konusu olduğunda üç araç arasında önemli farklılıklar vardır.
İpucu 1'i kullanarak, bu belgedeki araç hem GPT-100 hem de GPT-3.5 için %4 doğruluk oranına sahiptir, ancak ZeroGPT, GPT-32 metni için %3.5 başarısızlık oranına ve GPT-4 metni için %42 başarısızlık oranına sahiptir. OpenAI'nin ürünleri, GPT-4 metninde yaklaşık %70'lik bir başarısızlık oranıyla daha da kötü performans gösterdi.
Daha zor olan istem 2 tarafından oluşturulan AI metnini kullanırken, son iki yöntemin sınıflandırma doğruluğu daha da azaltılır.
Buna karşılık, bu makaledeki dedektör, bu grupta test edilen 100 belgeden yalnızca 1 hata yaptı.
Peki, yöntem, eğitim setinin parçası olmayan günlüklerde ChatGPT yazımını doğru bir şekilde algılayabilir mi ve farklı istemler kullanılırsa yöntem yine de çalışır mı?
Yazarlar sunum için üç dergiden 150 yeni makale seçtiler: Cell Reports Physical Science, Cell Press; Nature Publishing Group'tan Nature Chemistry; ve eğitim setine dahil olmayan bir ACS dergisi olan Journal of the American Chemical Society.
Ayrıca, 2022 sonbaharında üniversite öğrencileri tarafından yazılan ve 10 farklı üniversite gazetesinde yayınlanan 100 gazete makalesinden oluşan bir set toplanmıştır. Bu makaledeki dedektör özellikle bilimsel yazı için optimize edildiğinden, haberlerin yüksek doğrulukla sınıflandırılmaması beklenebilir.
Grafikten de görebileceğiniz gibi, aynı modeli uygulayarak ve bu yeni örnek kümesini ACS dergilerinden alınan metinlerle eğiterek, doğru sınıflandırma oranı %92-%98'dir. Bu, eğitim setinde elde edilen sonuçlara benzer.
Ayrıca beklendiği gibi, üniversite öğrencileri tarafından yazılan gazete makaleleri, insan kaynaklı olarak uygun şekilde sınıflandırılmamıştır.
Aslında, bu makalede açıklanan özellikler ve modeller kullanılarak değerlendirildiğinde, makalelerin neredeyse tamamı, insan bilimi makalelerinden çok yapay zeka tarafından oluşturulan metinlere benziyor.
Ancak bu yöntem, bilimsel yayınlardaki tespit problemlerini ele almaya yöneliktir ve diğer alanlara genişletilmesi için uygun değildir.
Kaynaklar
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Doğa|Yapay zeka dedektörleri yeniden mi yaşıyor? Başarı oranı, OpenAI'yi geride bırakarak %98'e kadar çıkıyor
Kaynak: Yeni Zhiyuan
Artık AI metin dedektörleriyle, AI tarafından oluşturulan metin ile insan metni arasında etkili bir ayrım yapmanın neredeyse hiçbir yolu yok.
OpenAI tarafından geliştirilen algılama aracı bile, algılama doğruluğu çok düşük olduğu için piyasaya sürüldükten altı ay sonra sessizce çevrimdışıydı.
Araştırma ekibinin temel fikri, genel bir dedektör oluşturmaya devam etmek değil, yalnızca belirli bir alandaki akademik makaleler için gerçekten yararlı bir AI metin dedektörü oluşturmaktır.
Araştırmacılar, algılama yazılımını belirli yazılı metin türleri için özelleştirmenin, evrensel bir AI dedektörü geliştirmenin teknik bir yolu olabileceğini söylüyor.
"Belirli bir alan için hızlı ve kolay bir şekilde bir denetim sistemi oluşturabiliyorsanız, farklı alanlar için böyle bir sistem oluşturmak o kadar da zor değildir."
Ve bu yirmi temel özellik, cümle uzunluğundaki değişiklikleri, belirli kelimelerin ve noktalama işaretlerinin ne sıklıkta kullanıldığını vb. içerir.
Araştırmacılara göre, "sadece az sayıda özellik kullanılarak çok yüksek bir doğruluk oranı elde edilebilir".
%98'e kadar doğru
En son çalışmalarında, dedektör, Amerikan Kimya Derneği (ACS) tarafından yayınlanan on kimya dergisi makalesinin giriş bölümünde eğitildi.
Araştırma ekibi "Giriş" bölümünü seçti çünkü ChatGPT'nin arka plan literatürüne erişimi olsaydı, makalenin bu bölümünün yazılması oldukça kolay olurdu.
Araştırmacılar, aracı insan tarafından yazılmış metin olarak yayınlanmış 100 alıntıyla eğitti ve ardından ChatGPT-3.5'ten bir ACS günlüğü tarzında 200 alıntı yazmasını istedi.
GPT-3.5 tarafından yazılan 200 giriş için 100'üne GPT-3.5 makale başlıkları verilirken, diğer 100 makale için yazmaya temel olarak özetler sağlandı.
Son olarak, dedektörün aynı dergide hem insan tarafından yazılmış hem de yapay zeka tarafından oluşturulan alıntıları test etmesini sağlarken.
Dedektör, ChatGPT-3.5'i başlığa göre giriş bölümünde %100 doğrulukla tanımladı. Özet yazımına dayalı olarak ChatGPT tarafından oluşturulan alıntılar için doğruluk oranı %98 ile biraz daha düşüktür.
Bu yeni ChatGPT dedektörü, eğitimsiz dergilerle uğraşırken bile iyi performans gösterir.
Ayrıca, AI dedektörünün istemlerini karıştırmak için özel olarak oluşturulmuş AI metnini de tanıyabilir.
Bununla birlikte, algılama sistemi bilimsel dergi makaleleri için çok iyi performans gösterirken, üniversite gazetelerindeki haber makalelerini tespit etmek için kullanıldığında, tanıma idealden daha azdır.
Deneme Detayları
Araştırmacılar tarafından kullanılan metodoloji, 20 temel özelliğe ve XGBoost algoritmasına dayanmaktadır.
Çıkarılan 20 özellik şunları içerir:
Dedektörü XGBoost ile eğitmenin ayrıntılı süreci, orijinal makalenin Deneysel Prosedür bölümünde bulunabilir.
Yazar daha önce de benzer bir çalışma yapmıştı, ancak orijinal çalışmanın kapsamı çok sınırlıydı.
Bu umut verici yöntemi kimya dergilerine uygulamak için, alandaki birden fazla dergiden çeşitli makalelere dayalı bir inceleme gereklidir.
Ek olarak, yapay zeka metnini algılama yeteneği, dil modeline sağlanan istemlerden etkilenir, bu nedenle yapay zeka yazımını algılamak için tasarlanmış herhangi bir yöntem, önceki çalışmalarda değerlendirilmemiş bir değişken olan yapay zekanın kullanımını karıştırabilecek istemlere karşı test edilmelidir.
Son olarak, GPT-3.5'e göre önemli bir gelişme olan ChatGPT'nin yeni bir sürümü olan GPT-4 piyasaya sürüldü. Yapay zeka metin algılayıcılarının, GPT-4 gibi dil modellerinin yeni sürümlerinden gelen metinlere karşı etkili olması gerekir.
Yapay zeka algılayıcısının kapsamını genişletmek için, burada veri toplama 13 farklı dergiden ve 3 farklı yayıncıdan, farklı yapay zeka istemlerinden ve farklı yapay zeka metin oluşturma modellerinden gelir.
Gerçek insan metni ve yapay zeka tarafından oluşturulan metni kullanarak XGBoost sınıflandırıcısını eğitin. Daha sonra modeli insan yazısı, yapay zeka istemleri ve GPT-3.5 ve GPT-4 gibi yöntemlerle değerlendirmek için yeni paradigmalar oluşturulur.
Sonuçlar, bu yazıda önerilen bu basit yöntemin çok etkili olduğunu göstermektedir. Komut istemine ve modele bağlı olarak yapay zeka tarafından oluşturulan metni tanımada %98-100 doğruluk oranına sahiptir. Buna karşılık, OpenAI'nin en son sınıflandırıcısı %10 ile %56 arasında bir doğruluk oranına sahiptir.
Bu makaledeki dedektör, bilim camiasının ChatGPT'nin kimya dergilerine penetrasyonunu değerlendirmesine, kullanımının sonuçlarını belirlemesine ve sorunlar ortaya çıktığında hızlı bir şekilde azaltma stratejileri uygulamasına olanak tanıyacak.
Sonuçlar ve Tartışma
Yazarlar, Amerikan Kimya Derneği'nin (ACS) 10 kimya dergisinden bir insan yazısı örneği seçtiler.
Bunlar arasında İnorganik Kimya, Analitik Kimya, Fiziksel Kimya Dergisi A, Organik Kimya Dergisi, ACS Omega, Kimya Eğitimi Dergisi, ACS Nano, Çevre Bilimi ve Teknolojisi, Toksikolojik Kimya Çalışmaları ve ACS Kimyasal Biyoloji bulunmaktadır.
Her dergide yer alan 10 makalenin giriş bölümü kullanılarak eğitim setinde toplam 100 adet insan yazısı örneği yer almıştır. Giriş bölümü seçildi çünkü bu, uygun yönlendirmeyle makalenin ChatGPT tarafından yazılma olasılığı en yüksek olan kısmıdır.
Dergi başına sadece 10 makale kullanmak alışılmadık derecede küçük bir veri kümesidir, ancak yazarlar bunun bir sorun olduğunu düşünmüyorlar, tam tersi, bu kadar küçük bir eğitim seti ile etkili bir model geliştirilebileceğini varsayarsak, yöntem minimum bilgi işlem gücü ile hızlı bir şekilde dağıtılabilir.
Benzer modeller 10 milyon belge kullanılarak eğitildi.
İstem tasarımı, bu çalışmalarda önemli bir unsurdur. İnsan tarafından yazılan her metin için, AI karşılaştırıcısı, her ikisi de ChatGPT'den bir kimyager gibi yazmasını istemek için tasarlanmış iki farklı istem kullanarak metni oluşturur.
İpucu 1: "Bir ACS dergisi tarzında xxx başlıklı bir makale için 300 ila 400 kelimelik bir giriş yazın."
İpucu 2: "Lütfen bu özeti içeren makale için bir ACS dergisi tarzında 300 ila 400 kelimelik bir giriş yazınız."
Beklendiği gibi, ChatGPT bu bölümde özetteki birçok önemli gerçeği ve kelime dağarcığını girişe dahil etti.
Eğitim veri kümesinin tamamı, yapay olarak oluşturulmuş 100 giriş ve ChatGPT tarafından oluşturulan 200 giriş içerir; Her paragraf bir "yazı örneği" haline gelir.
Her paragraftan paragrafın karmaşıklığı, cümle uzunluğundaki varyasyonlar, çeşitli noktalama işaretlerinin kullanımı ve insan bilim adamlarının veya ChatGPT'nin yazılarında daha sık görünebilecek "moda sözcükler" ile ilgili 20 özellikten oluşan bir liste çıkarıldı.
Model, bir arada bırakma çapraz doğrulama stratejisi kullanılarak optimize edilmiştir.
Doğru bir şekilde sınıflandırılması en kolay metin kategorisi, ChatGPT tarafından istem 1 (başlık) altında oluşturulan giriştir.
Model, tek tek paragraf düzeyinde %99 ve belge düzeyinde %100 doğrudur.
İstem 2'nin (özet) etkisi altında ChatGPT metninin sınıflandırma doğruluğu biraz daha düşüktür.
İnsan tarafından oluşturulan metnin doğru şekilde dağıtılması daha zordur, ancak doğruluğu yine de oldukça iyidir. Bir grup olarak, insanlar ChatGPT'den daha çeşitli bir yazı stiline sahiptir ve bu da bu yöntemi kullanarak yazı örneklerini düzgün bir şekilde sınıflandırmayı zorlaştırabilir.
Deneyin bir sonraki aşaması, modeli eğitimde kullanılmayan yeni belgelerle test etmektir.
Yazarlar hem kolay hem de zor testler tasarladılar.
Basit test, eğitim verileriyle aynı nitelikteki test verilerini kullanır (aynı dergiden farklı makaleler seçer) ve ChatGPT'yi yönlendirmek için yeni seçilen makale başlığını ve özetini kullanır.
Ve zor testte, yapay zeka metni oluşturmak için GPT-3.5 yerine GPT-4 kullanılıyor, GPT-4'ün GPT-3.5'ten daha iyi olduğu bilindiğinden, sınıflandırma doğruluğu düşecek mi?
Tam belge düzeyinde, insan tarafından oluşturulan metnin sınıflandırma doğruluğu %94'e, istem 2'de yapay zeka tarafından oluşturulan metnin doğruluğu %98'e ve istem 1'deki yapay zeka metin sınıflandırmasının doğruluğu %100'e ulaşır.
Eğitim ve test setleri de paragraf düzeyinde sınıflandırma doğruluğu açısından çok benzerdir.
Alttaki veriler, GPT-3.5 metin özellikleriyle eğitilmiş bir model GPT-4 metnini sınıflandırdığında sonuçları gösterir. Tüm kategorilerde sınıflandırma doğruluğunda herhangi bir bozulma olmadı, bu çok iyi bir sonuçtur ve yöntemin GPT-3.5 ve GPT-4 üzerindeki etkinliğini göstermektedir.
Bu yöntemin genel doğruluğu övgüye değer olsa da, değerini mevcut AI metin dedektörleriyle karşılaştırarak değerlendirmek en iyisidir. Burada, önde gelen tespit araçlarından ikisi aynı test seti verileri kullanılarak test edilmiştir.
İlk araç, ChatGPT'nin yapımcısı OpenAI tarafından sağlanan bir metin sınıflandırıcıdır. OpenAI, sınıflandırıcının mükemmel olmadığını kabul ediyor, ancak yine de en iyi halka açık ürünü.
İkinci algılama aracı ZeroGPT'dir. Üreticisi, AI metnini %98 doğrulukla algıladığını iddia ediyor ve araç 10 milyon belge üzerinde eğitildi. Birçok güncel değerlendirmede en iyi performans gösteren sınıflandırıcılardan biridir. Ayrıca ZeroGPT yapımcıları, yöntemlerinin hem GPT-3.5 hem de GPT-4 için çalıştığını söylüyor.
Her üç dedektör de insan metninin tanınmasında benzer yüksek doğruluğa sahiptir; Ancak, yapay zeka tarafından oluşturulan metnin değerlendirilmesi söz konusu olduğunda üç araç arasında önemli farklılıklar vardır.
İpucu 1'i kullanarak, bu belgedeki araç hem GPT-100 hem de GPT-3.5 için %4 doğruluk oranına sahiptir, ancak ZeroGPT, GPT-32 metni için %3.5 başarısızlık oranına ve GPT-4 metni için %42 başarısızlık oranına sahiptir. OpenAI'nin ürünleri, GPT-4 metninde yaklaşık %70'lik bir başarısızlık oranıyla daha da kötü performans gösterdi.
Daha zor olan istem 2 tarafından oluşturulan AI metnini kullanırken, son iki yöntemin sınıflandırma doğruluğu daha da azaltılır.
Buna karşılık, bu makaledeki dedektör, bu grupta test edilen 100 belgeden yalnızca 1 hata yaptı.
Peki, yöntem, eğitim setinin parçası olmayan günlüklerde ChatGPT yazımını doğru bir şekilde algılayabilir mi ve farklı istemler kullanılırsa yöntem yine de çalışır mı?
Yazarlar sunum için üç dergiden 150 yeni makale seçtiler: Cell Reports Physical Science, Cell Press; Nature Publishing Group'tan Nature Chemistry; ve eğitim setine dahil olmayan bir ACS dergisi olan Journal of the American Chemical Society.
Ayrıca, 2022 sonbaharında üniversite öğrencileri tarafından yazılan ve 10 farklı üniversite gazetesinde yayınlanan 100 gazete makalesinden oluşan bir set toplanmıştır. Bu makaledeki dedektör özellikle bilimsel yazı için optimize edildiğinden, haberlerin yüksek doğrulukla sınıflandırılmaması beklenebilir.
Ayrıca beklendiği gibi, üniversite öğrencileri tarafından yazılan gazete makaleleri, insan kaynaklı olarak uygun şekilde sınıflandırılmamıştır.
Aslında, bu makalede açıklanan özellikler ve modeller kullanılarak değerlendirildiğinde, makalelerin neredeyse tamamı, insan bilimi makalelerinden çok yapay zeka tarafından oluşturulan metinlere benziyor.
Ancak bu yöntem, bilimsel yayınlardaki tespit problemlerini ele almaya yöneliktir ve diğer alanlara genişletilmesi için uygun değildir.
Kaynaklar