Les détecteurs Nature|AI sont-ils de nouveau vivants ? Le taux de réussite atteint 98 %, battant OpenAI

Source : Nouveau Zhiyuan

Le problème qu’OpenAI n’a pas pu résoudre a été résolu par une équipe de recherche de l’Université du Kansas ? Le détecteur de contenu d’IA académique qu’ils ont développé a un taux de précision allant jusqu’à 98 %. Si cette technologie est largement promue dans les cercles universitaires, la prolifération des articles sur l’IA pourrait être efficacement atténuée.

Avec les détecteurs de texte basés sur l’IA, il n’existe presque aucun moyen de distinguer efficacement le texte généré par l’IA du texte humain.

Même l’outil de détection développé par OpenAI était discrètement hors ligne six mois après son lancement, car la précision de détection était trop faible.

Mais récemment, Nature a rapporté les résultats de recherche d’une équipe de l’Université du Kansas, et ils ont développé un système de détection de l’IA académique qui peut distinguer efficacement si un article contient du contenu généré par l’IA, avec un taux de précision allant jusqu’à 98 % !

Adresse de l’article :

L’idée centrale de l’équipe de recherche n’est pas de poursuivre la création d’un détecteur général, mais seulement de construire un détecteur de texte IA vraiment utile pour les articles académiques dans un domaine spécifique.

Adresse:

Les chercheurs affirment que la personnalisation d’un logiciel de détection pour des types spécifiques de texte écrit pourrait être une voie technique vers le développement d’un détecteur d’IA universel.

« Si vous pouvez rapidement et facilement mettre en place un système d’inspection pour un domaine spécifique, il n’est pas si difficile de construire un tel système pour différents domaines. »

Les chercheurs ont extrait 20 caractéristiques clés du style d’écriture de l’article et ont intégré ces caractéristiques dans le modèle XGBoost pour l’entraînement, ce qui a permis de faire la distinction entre le texte humain et le texte IA.

Et ces vingt caractéristiques clés incluent les changements dans la longueur des phrases, la fréquence d’utilisation de certains mots et signes de ponctuation, etc.

Selon les chercheurs, « un taux de précision très élevé peut être obtenu en n’utilisant qu’un petit nombre de caractéristiques ».

Jusqu’à 98% de réponses

Dans leur dernière étude, le détecteur a été entraîné dans la section introductive de dix articles de revues de chimie publiés par l’American Chemical Society (ACS).

L’équipe de recherche a choisi la section « Introduction » car si ChatGPT avait accès à la littérature de base, cette partie de l’article serait assez facile à rédiger.

Les chercheurs ont entraîné l’outil avec 100 citations publiées sous forme de texte écrit par l’homme, puis ont demandé à ChatGPT-3.5 d’écrire 200 citations dans le style d’une revue de l’ACS.

Pour les 200 introductions écrites par GPT-3.5, 100 d’entre elles ont reçu des titres d’articles GPT-3.5 pour la rédaction, tandis que pour les 100 autres articles, des résumés ont été fournis comme base pour la rédaction.

Enfin, lorsque le détecteur teste à la fois des citations écrites par l’homme et générées par l’IA dans le même journal.

Le détecteur a identifié ChatGPT-3.5 avec une précision de 100 % dans la section d’introduction basée sur le titre. Pour les citations générées par ChatGPT basées sur l’écriture abstraite, le taux de précision est légèrement inférieur à 98 %.

L’outil est tout aussi efficace pour les textes écrits par GPT-4.

En revanche, le détecteur d’IA à usage général ZeroGPT ne reconnaît que les citations écrites par l’IA avec un taux de précision d’environ 35 à 65 %, selon la version de ChatGPT utilisée et si la citation est générée en fonction du titre de l’article ou du résumé.

L’outil de classification de texte créé par OpenAI (qu’OpenAI avait supprimé au moment de la publication) n’a pas non plus bien fonctionné, avec une précision de seulement 10 à 55 % dans la reconnaissance des citations écrites par l’IA.

Ce nouveau détecteur ChatGPT fonctionne bien même lorsqu’il s’agit de journaux non formés.

Il peut également reconnaître le texte de l’IA qui est spécifiquement généré pour confondre les invites du détecteur d’IA.

Cependant, bien que le système de détection fonctionne très bien pour les articles de revues scientifiques, lorsqu’il est utilisé pour détecter des articles de presse dans les journaux universitaires, la reconnaissance est loin d’être idéale.

Debora Weber-Wulff, informaticienne à l’Université des sciences appliquées HTW de Berlin qui étudie le plagiat universitaire, a fait l’éloge de l’étude, affirmant que ce que les chercheurs faisaient était « très fascinant ».

Détails de l’essai

La méthodologie employée par les chercheurs s’appuie sur 20 fonctionnalités clés et l’algorithme XGBoost.

Les 20 caractéristiques extraites sont les suivantes :

(1) Nombre de phrases par paragraphe, (2) Nombre de mots par paragraphe, (3) Présence de parenthèses, (4) Présence de tirets, (5) Présence de points-virgules ou de deux-points, (6) Présence de points d’interrogation, (7) Présence d’apostrophes, (8) Écart-type de la longueur de la phrase, (9) Différence de longueur (moyenne) de phrases consécutives dans les paragraphes, (10) Présence de phrases de moins de 11 mots, (11) Présence de phrases de plus de 34 mots, (12) Présence de chiffres, (13) Il y a deux fois plus de majuscules (que de points) dans le texte des paragraphes, et les mots suivants sont présents : (14) bien que, (15) mais, (16) mais, (17) parce que, (18) ceci, (19) quelqu’un d’autre ou chercheur, (20), etc.

Le processus détaillé d’entraînement du détecteur avec XGBoost peut être trouvé dans la section Procédure expérimentale de l’article original.

L’auteur avait déjà réalisé un travail similaire, mais la portée du travail original était très limitée.

Afin d’appliquer cette méthode prometteuse aux revues de chimie, une revue est nécessaire sur la base d’une variété de manuscrits provenant de plusieurs revues dans le domaine.

De plus, la capacité à détecter le texte de l’IA est affectée par les invites fournies au modèle de langage, de sorte que toute méthode conçue pour détecter l’écriture de l’IA doit être testée par rapport à des invites qui peuvent confondre l’utilisation de l’IA, une variable qui n’a pas été évaluée dans les études précédentes.

Enfin, une nouvelle version de ChatGPT, GPT-4, a été lancée, ce qui constitue une amélioration significative par rapport à GPT-3.5. Les détecteurs de texte basés sur l’IA doivent être efficaces contre le texte provenant de nouvelles versions de modèles de langage tels que GPT-4.

Pour élargir la portée du détecteur d’IA, la collecte de données provient de 13 revues différentes et de 3 éditeurs différents, de différentes invites d’IA et de différents modèles de génération de texte d’IA.

Entraînez le classifieur XGBoost à l’aide d’un texte humain réel et d’un texte généré par l’IA. De nouveaux paradigmes sont ensuite générés pour évaluer le modèle à l’aide de méthodes telles que l’écriture humaine, les invites d’IA et GPT-3.5 et GPT-4.

Les résultats montrent que cette méthode simple proposée dans cet article est très efficace. Il a un taux de précision de 98 % à 100 % dans la reconnaissance du texte généré par l’IA, selon l’invite et le modèle. En comparaison, le dernier classificateur d’OpenAI a un taux de précision compris entre 10 % et 56 %.

Le détecteur de cet article permettra à la communauté scientifique d’évaluer la pénétration de ChatGPT dans les revues de chimie, de déterminer les conséquences de son utilisation et d’introduire rapidement des stratégies d’atténuation lorsque des problèmes surviennent.

Résultats et discussion

Les auteurs ont sélectionné un échantillon d’écrits humains dans 10 revues de chimie de l’American Chemical Society (ACS).

Il s’agit notamment de la chimie inorganique, de la chimie analytique, du Journal of Physical Chemistry A, du Journal of Organic Chemistry, de l’ACS Omega, du Journal of Chemical Education, de l’ACS Nano, de la science et de la technologie de l’environnement, des études de chimie toxicologique et de l’ACS Chemical Biology.

En utilisant la section d’introduction de 10 articles dans chaque revue, il y avait un total de 100 échantillons d’écriture humaine dans l’ensemble d’apprentissage. La section introductive a été choisie parce que, avec une incitation appropriée, c’est la partie de l’article qui est la plus susceptible d’être écrite par ChatGPT.

L’utilisation de seulement 10 articles par revue est un ensemble de données inhabituellement petit, mais les auteurs ne pensent pas que ce soit un problème, bien au contraire, en supposant qu’un modèle efficace puisse être développé avec un si petit ensemble d’apprentissage, la méthode peut être rapidement déployée avec une puissance de calcul minimale.

Des modèles similaires ont été entraînés à l’aide de 10 millions de documents.

La rapidité de conception est un aspect clé de ces études. Pour chaque texte écrit par l’homme, le comparateur d’IA le génère à l’aide de deux invites différentes, toutes deux conçues pour demander à ChatGPT d’écrire comme un chimiste.

Astuce 1 : « Rédigez une introduction de 300 à 400 mots pour un article intitulé xxx dans le style d’une revue de l’ACS. »

Le conseil n° 2 est le suivant : « Veuillez rédiger une introduction de 300 à 400 mots pour l’article avec ce résumé dans le style d’une revue de l’AEC. »

Comme on pouvait s’y attendre, ChatGPT a incorporé de nombreux faits et vocabulaires clés du résumé dans l’introduction de cet épisode.

L’ensemble du jeu de données d’entraînement contient 100 introductions générées artificiellement et 200 introductions générées par ChatGPT ; Chaque paragraphe devient un « exemple d’écriture ».

Une liste de 20 caractéristiques a été extraite de chaque paragraphe concernant la complexité du paragraphe, les variations de la longueur des phrases, l’utilisation de divers signes de ponctuation et les « mots à la mode » qui peuvent apparaître plus fréquemment dans les écrits des scientifiques humains ou de ChatGPT.

Le modèle est optimisé à l’aide d’une stratégie de validation croisée « leave-one-out ».

Le tableau ci-dessus présente les résultats de l’entraînement pour ces exemples de classifications d’écriture, y compris le niveau du document complet et le niveau du paragraphe.

La catégorie de texte la plus facile à classer correctement est l’introduction générée par ChatGPT sous l’invite 1 (en-tête).

Le modèle est précis à 99 % au niveau du paragraphe individuel et à 100 % au niveau du document.

La précision de classification du texte ChatGPT sous l’effet de l’invite 2 (résumé) est légèrement inférieure.

Le texte généré par l’homme est plus difficile à distribuer correctement, mais la précision est tout de même assez bonne. En tant que groupe, les humains ont un style d’écriture plus diversifié que ChatGPT, ce qui peut rendre plus difficile la classification correcte de leurs échantillons d’écriture à l’aide de cette méthode.

La phase suivante de l’expérience consiste à tester le modèle avec de nouveaux documents qui n’ont pas été utilisés lors de la formation.

Les auteurs ont conçu des tests à la fois faciles et difficiles.

Le test simple utilise des données de test de même nature que les données d’entraînement (en choisissant différents articles de la même revue) et utilise le titre et le résumé de l’article nouvellement sélectionnés pour inviter ChatGPT.

Et dans le test difficile, GPT-4 est utilisé à la place de GPT-3.5 pour générer du texte d’IA, puisque GPT-4 est connu pour être meilleur que GPT-3.5, la précision de la classification diminuera-t-elle ?

Le tableau ci-dessus présente les résultats de la classification. Il n’y a presque pas de dégradation des performances par rapport aux résultats précédents.

Au niveau du document complet, la précision de classification du texte généré par l’homme atteint 94 %, la précision du texte généré par l’IA dans l’invite 2 est de 98 % et la précision de la classification du texte par l’IA dans l’invite 1 atteint 100 %.

Les ensembles d’apprentissage et de test sont également très similaires en termes de précision de classification au niveau des paragraphes.

Les données en bas montrent les résultats lorsqu’un modèle entraîné avec des entités textuelles GPT-3.5 classe du texte GPT-4. Il n’y a pas eu de dégradation de la précision de la classification dans toutes les catégories, ce qui est un très bon résultat et démontre l’efficacité de la méthode sur GPT-3.5 et GPT-4.

Bien que la précision globale de cette méthode soit louable, il est préférable de juger de sa valeur en la comparant aux détecteurs de texte IA existants. Ici, deux des principaux outils de détection ont été testés à l’aide des mêmes données d’ensemble de test.

Le premier outil est un classificateur de texte fourni par OpenAI, le fabricant de ChatGPT. OpenAI admet que le classificateur n’est pas parfait, mais c’est toujours leur meilleur produit public.

Le deuxième outil de détection est ZeroGPT. Son fabricant prétend détecter le texte de l’IA avec une précision de 98 %, et l’outil a été entraîné sur 10 millions de documents. C’est l’un des classificateurs les plus performants dans de nombreuses évaluations actuelles. De plus, les créateurs de ZeroGPT affirment que leur méthode fonctionne à la fois pour GPT-3.5 et GPT-4.

Le diagramme ci-dessus montre les performances des outils de cet article et des deux produits ci-dessus au niveau de la documentation complète.

Les trois détecteurs ont une grande précision similaire dans la reconnaissance du texte humain ; Cependant, il existe des différences significatives entre les trois outils lorsqu’il s’agit d’évaluer le texte généré par l’IA.

En utilisant l’astuce 1, l’outil de cet article a un taux de précision de 100 % pour GPT-3.5 et GPT-4, mais ZeroGPT a un taux d’échec de 32 % pour le texte GPT-3.5 et un taux d’échec de 42 % pour le texte GPT-4. Les produits d’OpenAI ont obtenu des résultats encore pires, avec un taux d’échec de près de 70 % sur le texte GPT-4.

Lors de l’utilisation du texte AI généré par l’invite 2, plus difficile, la précision de classification des deux dernières méthodes est encore réduite.

En revanche, le détecteur de cet article n’a fait qu’une seule erreur sur 100 documents testés dans ce groupe.

Ainsi, la méthode peut-elle détecter avec précision l’écriture de ChatGPT dans des journaux qui ne font pas partie de l’ensemble d’apprentissage, et la méthode fonctionne-t-elle toujours si différentes invites sont utilisées ?

Les auteurs ont sélectionné 150 nouveaux articles provenant de trois revues pour les présenter : Cell Reports Physical Science, Cell Press ; Nature Chemistry, de Nature Publishing Group ; et le Journal of the American Chemical Society, une revue de l’ACS qui n’est pas incluse dans l’ensemble d’apprentissage.

De plus, un ensemble de 100 articles de journaux rédigés par des étudiants de niveau collégial à l’automne 2022 et publiés dans 10 journaux universitaires différents a été recueilli. Étant donné que le détecteur de cet article est optimisé spécifiquement pour la rédaction scientifique, on peut s’attendre à ce que les nouvelles ne soient pas classées avec une grande précision.

Comme vous pouvez le voir sur le graphique, en appliquant le même modèle et en entraînant ce nouvel ensemble d’exemples avec du texte provenant de revues ACS, le taux de classification correct est de 92 % à 98 %. Ceci est similaire aux résultats obtenus dans l’ensemble d’apprentissage.

De plus, comme on pouvait s’y attendre, les articles de journaux écrits par des étudiants ne sont pas correctement classés comme étant générés par l’homme.

En fait, lorsqu’ils sont évalués à l’aide des caractéristiques et des modèles décrits dans cet article, presque tous les articles ressemblent davantage à du texte généré par l’IA qu’à des articles de sciences humaines.

Cependant, cette méthode est destinée à traiter des problèmes de détection dans les publications scientifiques et n’est pas adaptée à son extension à d’autres domaines.

Ressources

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)