Detektor alam | AI hidup kembali? Tingkat keberhasilannya setinggi 98%, mengalahkan OpenAI

Sumber: Zhiyuan Baru

Masalah yang tidak bisa dipecahkan OpenAI diselesaikan oleh tim peneliti di University of Kansas? Detektor konten AI akademik yang mereka kembangkan memiliki tingkat akurasi hingga 98%. Jika teknologi ini dipromosikan secara luas di kalangan akademis, proliferasi makalah AI dapat dikurangi secara efektif.

Dengan detektor teks AI sekarang, hampir tidak ada cara untuk membedakan secara efektif antara teks yang dihasilkan AI dan teks manusia.

Bahkan alat deteksi yang dikembangkan oleh OpenAI diam-diam offline setengah tahun setelah diluncurkan karena akurasi deteksi terlalu rendah.

Namun baru-baru ini, Nature melaporkan hasil penelitian tim di University of Kansas, dan mereka mengembangkan sistem deteksi AI akademik yang dapat secara efektif membedakan apakah sebuah makalah berisi konten yang dihasilkan AI, dengan tingkat akurasi hingga 98%!

Alamat artikel:

Ide inti dari tim peneliti bukanlah untuk mengejar penciptaan detektor umum, tetapi hanya untuk membangun detektor teks AI yang benar-benar berguna untuk makalah akademis di bidang tertentu.

Alamat:

Para peneliti mengatakan bahwa menyesuaikan perangkat lunak pendeteksi untuk jenis teks tertulis tertentu bisa menjadi jalur teknis untuk mengembangkan detektor AI universal.

"Jika Anda dapat dengan cepat dan mudah membangun sistem inspeksi untuk domain tertentu, maka tidak begitu sulit untuk membangun sistem seperti itu untuk domain yang berbeda."

Para peneliti mengekstrak 20 fitur utama dari gaya penulisan makalah dan memasukkan fitur-fitur ini ke dalam model XGBoost untuk pelatihan, yang memungkinkan untuk membedakan antara teks manusia dan AI.

Dan dua puluh karakteristik utama ini termasuk perubahan panjang kalimat, seberapa sering kata-kata tertentu dan tanda baca digunakan, dan sebagainya.

Menurut para peneliti, "tingkat akurasi yang sangat tinggi dapat diperoleh dengan hanya menggunakan sejumlah kecil fitur".

Hingga 98% benar

Dalam studi terbaru mereka, detektor dilatih di bagian pengantar dari sepuluh makalah jurnal kimia yang diterbitkan oleh American Chemical Society (ACS).

Tim peneliti memilih bagian "Pendahuluan" karena jika ChatGPT memiliki akses ke literatur latar belakang, maka bagian makalah ini akan cukup mudah untuk ditulis.

Para peneliti melatih alat ini dengan 100 kutipan yang diterbitkan sebagai teks yang ditulis manusia, dan kemudian meminta ChatGPT-3.5 untuk menulis 200 kutipan dalam gaya jurnal ACS.

Untuk 200 pengantar yang ditulis oleh GPT-3.5, 100 di antaranya dilengkapi dengan judul makalah GPT-3.5 untuk penulisan, sedangkan untuk 100 makalah lainnya, abstrak disediakan sebagai dasar penulisan.

Akhirnya, ketika memiliki detektor menguji kutipan yang ditulis manusia dan yang dihasilkan AI dalam jurnal yang sama.

Detektor mengidentifikasi ChatGPT-3.5 dengan akurasi 100% di bagian pendahuluan berdasarkan judul. Untuk kutipan yang dihasilkan ChatGPT berdasarkan tulisan abstrak, tingkat akurasinya sedikit lebih rendah yaitu 98%.

Alat ini sama efektifnya untuk teks yang ditulis oleh GPT-4.

Sebaliknya, detektor AI tujuan umum ZeroGPT hanya mengenali kutipan tertulis AI dengan tingkat akurasi sekitar 35-65%, tergantung pada versi ChatGPT yang digunakan dan apakah kutipan tersebut dihasilkan berdasarkan judul makalah atau abstrak.

Alat pengklasifikasi teks yang dibuat oleh OpenAI (yang telah dihapus OpenAI pada saat publikasi) juga tidak berkinerja baik, dengan akurasi hanya 10-55% dalam mengenali kutipan tertulis AI.

Detektor ChatGPT baru ini berkinerja baik bahkan ketika berhadapan dengan jurnal yang tidak terlatih.

Itu juga dapat mengenali teks AI yang secara khusus dihasilkan untuk membingungkan petunjuk detektor AI.

Namun, sementara sistem deteksi berkinerja sangat baik untuk makalah jurnal ilmiah, ketika digunakan untuk mendeteksi artikel berita di surat kabar universitas, pengenalannya kurang ideal.

Debora Weber-Wulff, seorang ilmuwan komputer di HTW Berlin University of Applied Sciences yang mempelajari plagiarisme akademik, memuji penelitian ini, mengatakan bahwa apa yang dilakukan para peneliti "sangat menarik".

Detail Esai

Metodologi yang digunakan oleh para peneliti bergantung pada 20 fitur utama dan algoritma XGBoost.

20 fitur yang diekstrak meliputi:

(1) Jumlah kalimat per paragraf, (2) Jumlah kata per paragraf, (3) Adanya tanda kurung, (4) Adanya tanda hubung, (5) Adanya titik koma atau titik dua, (6) Adanya tanda tanya, (7) Adanya apostrof, (8) Simpangan baku panjang kalimat, (9) (Rata-rata) perbedaan panjang kalimat berurutan dalam paragraf, (10) Kehadiran kalimat kurang dari 11 kata, (11) Kehadiran kalimat lebih dari 34 kata, (12) Kehadiran angka, (13) Ada dua kali lebih banyak huruf kapital (dibandingkan dengan titik) dalam teks paragraf, dan kata-kata berikut hadir: (14) meskipun, (15) tetapi, (16) tetapi, (17) karena, (18) ini, (19) orang lain atau peneliti, (20), dll.

Proses rinci pelatihan detektor dengan XGBoost dapat ditemukan di bagian Prosedur Eksperimental dari makalah asli.

Penulis telah melakukan pekerjaan serupa sebelumnya, tetapi ruang lingkup karya aslinya sangat terbatas.

Untuk menerapkan metode yang menjanjikan ini ke jurnal kimia, diperlukan tinjauan berdasarkan berbagai naskah dari berbagai jurnal di lapangan.

Selain itu, kemampuan untuk mendeteksi teks AI dipengaruhi oleh petunjuk yang diberikan pada model bahasa, sehingga metode apa pun yang dirancang untuk mendeteksi penulisan AI harus diuji terhadap petunjuk yang dapat membingungkan penggunaan AI, variabel yang belum dievaluasi dalam penelitian sebelumnya.

Akhirnya, versi baru ChatGPT, GPT-4, telah diluncurkan, yang merupakan peningkatan signifikan dari GPT-3.5. Detektor teks AI harus efektif terhadap teks dari versi baru model bahasa seperti GPT-4.

Untuk memperluas cakupan detektor AI, pengumpulan data di sini berasal dari 13 jurnal berbeda dan 3 penerbit berbeda, petunjuk AI berbeda, dan model pembuatan teks AI yang berbeda.

Latih pengklasifikasi XGBoost menggunakan teks manusia nyata dan teks yang dihasilkan AI. Paradigma baru kemudian dihasilkan untuk mengevaluasi model melalui metode seperti penulisan manusia, AI prompts, dan GPT-3.5 dan GPT-4.

Hasil penelitian menunjukkan bahwa metode sederhana yang diusulkan dalam makalah ini sangat efektif. Ini memiliki tingkat akurasi 98% -100% dalam mengenali teks yang dihasilkan AI, tergantung pada prompt dan model. Sebagai perbandingan, pengklasifikasi terbaru OpenAI memiliki tingkat akurasi antara 10% dan 56%.

Detektor dalam makalah ini akan memungkinkan komunitas ilmiah untuk menilai penetrasi ChatGPT ke dalam jurnal kimia, menentukan konsekuensi penggunaannya, dan dengan cepat memperkenalkan strategi mitigasi ketika masalah muncul.

Hasil dan Pembahasan

Para penulis memilih sampel tulisan manusia dari 10 jurnal kimia American Chemical Society (ACS).

Ini termasuk Kimia Anorganik, Kimia Analitik, Jurnal Kimia Fisik A, Jurnal Kimia Organik, ACS Omega, Jurnal Pendidikan Kimia, ACS Nano, Ilmu dan Teknologi Lingkungan, Studi dalam Kimia Toksikologi, dan Biologi Kimia ACS.

Menggunakan bagian pendahuluan dari 10 artikel di setiap jurnal, ada total 100 sampel tulisan manusia dalam set pelatihan. Bagian pengantar dipilih karena, dengan dorongan yang tepat, ini adalah bagian dari artikel yang kemungkinan besar akan ditulis oleh ChatGPT.

Menggunakan hanya 10 artikel per jurnal adalah kumpulan data yang luar biasa kecil, tetapi penulis tidak berpikir itu masalah, justru sebaliknya, dengan asumsi bahwa model yang efektif dapat dikembangkan dengan set pelatihan sekecil itu, metode ini dapat dengan cepat digunakan dengan daya komputasi minimal.

Model serupa dilatih menggunakan 10 juta dokumen.

Desain yang cepat adalah aspek kunci dalam studi ini. Untuk setiap teks yang ditulis manusia, komparator AI menghasilkannya menggunakan dua petunjuk berbeda, yang keduanya dirancang untuk meminta ChatGPT menulis seperti ahli kimia.

Tip 1 adalah: "Tulis pengantar 300 hingga 400 kata untuk artikel berjudul xxx dengan gaya jurnal ACS."

Tip 2 adalah: "Silakan tulis pengantar 300 hingga 400 kata untuk artikel dengan abstrak ini dalam gaya jurnal ACS."

Seperti yang diharapkan, ChatGPT telah memasukkan banyak fakta dan kosakata kunci dari ringkasan ke dalam pengantar di episode ini.

Seluruh himpunan data pelatihan berisi 100 perkenalan yang dibuat secara artifisial dan 200 perkenalan yang dihasilkan ChatGPT; Setiap paragraf menjadi "contoh penulisan".

Daftar 20 fitur diambil dari setiap paragraf mengenai kompleksitas paragraf, variasi panjang kalimat, penggunaan berbagai tanda baca, dan "kata kunci" yang mungkin lebih sering muncul dalam tulisan ilmuwan manusia atau ChatGPT.

Model ini dioptimalkan menggunakan strategi validasi silang leave-one-out.

Tabel di atas menunjukkan hasil pelatihan untuk klasifikasi sampel penulisan ini, termasuk tingkat dokumen lengkap dan tingkat paragraf.

Kategori teks termudah untuk diklasifikasikan dengan benar adalah pengantar yang dihasilkan oleh ChatGPT di bawah prompt 1 (judul).

Model ini 99% akurat pada tingkat paragraf individu dan 100% akurat pada tingkat dokumen.

Akurasi klasifikasi teks ChatGPT di bawah pengaruh prompt 2 (ringkasan) sedikit lebih rendah.

Teks yang dihasilkan manusia lebih sulit didistribusikan dengan benar, tetapi akurasinya masih cukup bagus. Sebagai sebuah kelompok, manusia memiliki gaya penulisan yang lebih beragam daripada ChatGPT, yang dapat membuatnya lebih sulit untuk mengklasifikasikan sampel tulisan mereka dengan benar menggunakan metode ini.

Tahap selanjutnya dari percobaan ini adalah menguji model dengan dokumen baru yang tidak digunakan dalam pelatihan.

Para penulis merancang tes mudah dan sulit.

Tes sederhana menggunakan data uji dengan sifat yang sama dengan data pelatihan (memilih artikel yang berbeda dari jurnal yang sama) dan menggunakan judul dan abstrak artikel yang baru dipilih untuk meminta ChatGPT.

Dan dalam tes yang sulit, GPT-4 digunakan sebagai pengganti GPT-3.5 untuk menghasilkan teks AI, karena GPT-4 diketahui lebih baik daripada GPT-3.5, apakah akurasi klasifikasi akan menurun?

Tabel di atas menunjukkan hasil klasifikasi. Hampir tidak ada penurunan kinerja dibandingkan dengan hasil sebelumnya.

Pada tingkat dokumen lengkap, akurasi klasifikasi teks yang dihasilkan manusia mencapai 94%, akurasi teks yang dihasilkan AI di prompt 2 adalah 98%, dan akurasi klasifikasi teks AI di prompt 1 mencapai 100%.

Set pelatihan dan tes juga sangat mirip untuk akurasi klasifikasi tingkat paragraf.

Data di bagian bawah menunjukkan hasil ketika model yang dilatih dengan fitur teks GPT-3.5 mengklasifikasikan teks GPT-4. Tidak ada penurunan akurasi klasifikasi di semua kategori, yang merupakan hasil yang sangat baik dan menunjukkan efektivitas metode pada GPT-3.5 dan GPT-4.

Meskipun akurasi keseluruhan dari metode ini patut dipuji, yang terbaik adalah menilai nilainya dengan membandingkannya dengan detektor teks AI yang ada. Di sini, dua alat deteksi terkemuka diuji menggunakan data set pengujian yang sama.

Alat pertama adalah pengklasifikasi teks yang disediakan oleh OpenAI, pembuat ChatGPT. OpenAI mengakui bahwa pengklasifikasi tidak sempurna, tetapi masih merupakan produk publik terbaik mereka.

Alat deteksi kedua adalah ZeroGPT. Pabrikannya mengklaim mendeteksi teks AI dengan akurasi 98%, dan alat ini telah dilatih pada 10 juta dokumen. Ini adalah salah satu pengklasifikasi berkinerja terbaik dalam banyak evaluasi saat ini. Selain itu, pembuat ZeroGPT mengatakan bahwa metode mereka berfungsi untuk GPT-3.5 dan GPT-4.

Diagram di atas menunjukkan kinerja alat dalam artikel ini dan dua produk di atas pada tingkat dokumentasi lengkap.

Ketiga detektor memiliki akurasi tinggi yang sama dalam pengenalan teks manusia; Namun, ada perbedaan yang signifikan antara ketiga alat tersebut dalam hal mengevaluasi teks yang dihasilkan AI.

Menggunakan Tip 1, alat dalam makalah ini memiliki tingkat akurasi 100% untuk GPT-3.5 dan GPT-4, tetapi ZeroGPT memiliki tingkat kegagalan 32% untuk teks GPT-3.5 dan tingkat kegagalan 42% untuk teks GPT-4. Produk OpenAI berkinerja lebih buruk, dengan tingkat kegagalan hampir 70% pada teks GPT-4.

Saat menggunakan teks AI yang dihasilkan oleh prompt 2 yang lebih sulit, akurasi klasifikasi dari dua metode terakhir semakin berkurang.

Sebaliknya, detektor dalam makalah ini hanya membuat 1 kesalahan dari 100 dokumen yang diuji dalam kelompok ini.

Jadi, dapatkah metode ini secara akurat mendeteksi penulisan ChatGPT di jurnal yang bukan bagian dari set pelatihan, dan apakah metode tersebut masih berfungsi jika petunjuk yang berbeda digunakan?

Para penulis memilih 150 artikel baru dari tiga jurnal untuk presentasi: Cell Reports Physical Science, Cell Press; Nature Chemistry, dari Nature Publishing Group; dan Journal of American Chemical Society, jurnal ACS yang tidak termasuk dalam set pelatihan.

Selain itu, satu set 100 artikel surat kabar yang ditulis oleh mahasiswa pada musim gugur 2022 dan diterbitkan di 10 surat kabar universitas yang berbeda dikumpulkan. Karena detektor dalam artikel ini dioptimalkan khusus untuk penulisan ilmiah, dapat diharapkan bahwa berita tidak akan diklasifikasikan dengan akurasi tinggi.

Seperti yang dapat Anda lihat dari grafik, menerapkan model yang sama dan melatih kumpulan contoh baru ini dengan teks dari jurnal ACS, tingkat klasifikasi yang benar adalah 92% -98%. Ini mirip dengan hasil yang diperoleh dalam set pelatihan.

Juga seperti yang diharapkan, artikel surat kabar yang ditulis oleh mahasiswa tidak diklasifikasikan dengan benar sebagai buatan manusia.

Bahkan, ketika dievaluasi menggunakan fitur dan model yang dijelaskan dalam artikel ini, hampir semua artikel lebih menyerupai teks yang dihasilkan AI daripada artikel sains manusia.

Namun, metode ini dimaksudkan untuk menangani masalah deteksi dalam publikasi ilmiah dan tidak cocok untuk diperluas ke bidang lain.

Sumber daya

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)