Проблема, которую не смог решить OpenAI, была решена исследовательской группой из Канзасского университета? Разработанный ими академический детектор контента с искусственным интеллектом имеет точность до 98%. Если эта технология будет широко пропагандироваться в академических кругах, распространение статей об ИИ может быть эффективно уменьшено.
С помощью детекторов текста с искусственным интеллектом практически невозможно эффективно отличить текст, сгенерированный искусственным интеллектом, от текста, созданного человеком.
Даже инструмент обнаружения, разработанный OpenAI, был тихо отключен через полгода после запуска, потому что точность обнаружения была слишком низкой.
Но недавно журнал Nature сообщил о результатах исследования команды из Университета Канзаса, и они разработали академическую систему обнаружения ИИ, которая может эффективно различать, содержит ли статья контент, сгенерированный искусственным интеллектом, с точностью до 98%!
Адрес статьи:
Основная идея исследовательской группы заключается не в том, чтобы заниматься созданием общего детектора, а только в том, чтобы создать действительно полезный детектор текста с искусственным интеллектом для научных работ в конкретной области.
Адрес:
Исследователи говорят, что настройка программного обеспечения для обнаружения конкретных типов письменного текста может стать техническим путем к разработке универсального детектора с искусственным интеллектом.
«Если вы можете быстро и легко построить инспекционную систему для конкретного домена, то построить такую систему не так уж и сложно для разных доменов».
Исследователи извлекли 20 ключевых особенностей стиля написания статьи и ввели эти особенности в модель XGBoost для обучения, которая позволила различать текст человека и ИИ.
И эти двадцать ключевых характеристик включают в себя изменения в длине предложения, как часто используются определенные слова и знаки препинания и так далее.
По словам исследователей, «очень высокий уровень точности может быть получен при использовании лишь небольшого количества признаков».
До 98% правильности
В их последнем исследовании детектор был обучен во вводной части десяти статей в химических журналах, опубликованных Американским химическим обществом (ACS).
Исследовательская группа выбрала раздел «Введение», потому что, если бы у ChatGPT был доступ к справочной литературе, то эту часть работы было бы довольно легко написать.
Исследователи обучили инструмент на 100 опубликованных цитатах в виде текста, написанного человеком, а затем попросили ChatGPT-3.5 написать 200 цитат в стиле журнала ACS.
Для 200 введений, написанных GPT-3.5, 100 из них были снабжены названиями статей GPT-3.5 для написания, в то время как для остальных 100 статей в качестве основы для написания были предоставлены аннотации.
Наконец, когда детектор тестирует как написанные человеком, так и цитаты, сгенерированные искусственным интеллектом, в одном и том же журнале.
Детектор идентифицировал ChatGPT-3.5 со 100% точностью во вводном разделе по названию. Для котировок, сгенерированных ChatGPT, основанных на написании тезисов, уровень точности немного ниже и составляет 98%.
Инструмент одинаково эффективен для текстов, написанных GPT-4.
В отличие от этого, детектор искусственного интеллекта общего назначения ZeroGPT распознает только котировки, написанные искусственным интеллектом, с точностью около 35-65%, в зависимости от используемой версии ChatGPT и от того, генерируется ли цитата на основе названия статьи или аннотации.
Инструмент классификатора текста, созданный OpenAI (который OpenAI удалил на момент публикации), также не показал хороших результатов, с точностью всего 10-55% в распознавании цитат, написанных ИИ.
Этот новый детектор ChatGPT хорошо работает даже при работе с необученными журналами.
Он также может распознавать текст ИИ, который специально сгенерирован, чтобы сбить с толку подсказки детектора ИИ.
Тем не менее, в то время как система обнаружения очень хорошо работает для научных журнальных статей, при использовании для обнаружения новостных статей в университетских газетах распознавание далеко от идеального.
Дебора Вебер-Вульф, специалист по информатике из Берлинского университета прикладных наук, изучающая академический плагиат, высоко оценила исследование, заявив, что то, что делали исследователи, было «очень увлекательным».
Детали эссе
Методология, используемая исследователями, опирается на 20 ключевых функций и алгоритм XGBoost.
Извлеченные 20 объектов включают:
(1) Количество предложений в абзаце, (2) Количество слов в абзаце, (3) Наличие круглых скобок, (4) Наличие тире, (5) Наличие точки с запятой или двоеточия, (6) Наличие вопросительных знаков, (7) Наличие апострофов, (8) Стандартное отклонение длины предложения, (9) (Среднее) Разница в длине последовательных предложений в абзацах, (10) Наличие предложений менее 11 слов, (11) Наличие предложений более 34 слов, (12) Наличие цифр, (13) В тексте абзацев в два раза больше заглавных букв (по сравнению с точками) и присутствуют следующие слова: (14) хотя, (15) но, (16) но, (17) потому что, (18) этот, (19) кто-то другой или исследователь, (20) и т.д.
Подробный процесс обучения детектора с помощью XGBoost можно найти в разделе Experimental Procedure оригинальной статьи.
Автор уже делал подобную работу раньше, но рамки оригинальной работы были очень ограничены.
Для того, чтобы применить этот многообещающий метод к химическим журналам, требуется рецензирование, основанное на различных рукописях из нескольких журналов в этой области.
Кроме того, на способность обнаруживать текст ИИ влияют подсказки, предоставляемые языковой модели, поэтому любой метод, разработанный для обнаружения письма ИИ, должен быть протестирован на предмет подсказок, которые могут ввести в заблуждение использование ИИ, что не оценивалось в предыдущих исследованиях.
Наконец, была запущена новая версия ChatGPT, GPT-4, которая является значительным улучшением по сравнению с GPT-3.5. Детекторы текста на основе ИИ должны быть эффективны против текста из новых версий языковых моделей, таких как GPT-4.
Чтобы расширить область применения детектора ИИ, здесь собираются данные из 13 различных журналов и 3 разных издательств, разные подсказки ИИ и разные модели генерации текста ИИ.
Обучайте классификатор XGBoost, используя реальный человеческий текст и текст, сгенерированный искусственным интеллектом. Затем генерируются новые парадигмы для оценки модели с помощью таких методов, как написание человеком, подсказки ИИ, а также GPT-3.5 и GPT-4.
Результаты показывают, что этот простой метод, предложенный в данной работе, является очень эффективным. Он имеет точность распознавания текста, созданного искусственным интеллектом, от 98% до 100%, в зависимости от запроса и модели. Для сравнения, новейший классификатор OpenAI имеет точность от 10% до 56%.
Детектор в этой работе позволит научному сообществу оценить проникновение ChatGPT в химические журналы, определить последствия его использования и оперативно внедрять стратегии смягчения последствий при возникновении проблем.
Результаты и обсуждение
Авторы выбрали образец человеческого письма из 10 химических журналов Американского химического общества (ACS).
К ним относятся «Неорганическая химия», «Аналитическая химия», «Журнал физической химии А», «Журнал органической химии», «ACS Omega», «Журнал химического образования», «ACS Nano», «Экологическая наука и технология», «Исследования в токсикологической химии» и «Химическая биология».
Используя вводный раздел из 10 статей в каждом журнале, в обучающем наборе было в общей сложности 100 образцов человеческого письма. Вводный раздел был выбран потому, что при правильной подсказке это та часть статьи, которая, скорее всего, будет написана ChatGPT.
Использование всего 10 статей в журнале — это необычно маленький набор данных, но авторы не считают это проблемой, наоборот, предполагая, что эффективная модель может быть разработана с таким небольшим обучающим набором, метод может быть быстро развернут с минимальными вычислительными мощностями.
Подобные модели были обучены на 10 миллионах документов.
Ключевым аспектом в этих исследованиях является оперативное проектирование. Для каждого текста, написанного человеком, компаратор ИИ генерирует его с помощью двух разных подсказок, обе из которых предназначены для того, чтобы попросить ChatGPT писать, как химик.
Совет 1: «Напишите предисловие объемом от 300 до 400 слов для статьи под названием xxx в стиле журнала ACS».
Совет 2: «Пожалуйста, напишите вступление к статье объемом от 300 до 400 слов с этой аннотацией в стиле журнала ACS».
Как и ожидалось, ChatGPT включил многие ключевые факты и лексику из резюме во вступление в этом эпизоде.
Весь обучающий набор данных содержит 100 искусственно сгенерированных введений и 200 введений, сгенерированных ChatGPT; Каждый абзац становится «примером письма».
Из каждого абзаца был извлечен список из 20 особенностей, касающихся сложности абзаца, вариаций в длине предложения, использования различных знаков препинания и «модных словечек», которые могут чаще появляться в работах ученых-людей или ChatGPT.
Модель оптимизируется с помощью стратегии перекрестной проверки с пропуском одного экземпляра.
В приведенной выше таблице показаны результаты обучения для этих письменных образцов классификаций, включая полный уровень документа и уровень абзаца.
Самая простая для правильной классификации текстовая категория — это введение, сгенерированное ChatGPT под приглашением 1 (заголовок).
Модель точна на уровне 99 % на уровне отдельных абзацев и на 100 % на уровне документа.
Точность классификации текста ChatGPT под действием подсказки 2 (summary) немного ниже.
Текст, созданный человеком, сложнее правильно распространять, но точность все равно довольно хорошая. Как группа, люди имеют более разнообразный стиль письма, чем ChatGPT, что может затруднить правильную классификацию образцов письма с помощью этого метода.
Следующим этапом эксперимента является тестирование модели с новыми документами, которые не использовались при обучении.
Авторы разработали как простые, так и сложные тесты.
В простом тесте используются тестовые данные той же природы, что и обучающие данные (выбор разных статей из одного журнала), и используется только что выбранный заголовок статьи и аннотация для подсказки ChatGPT.
А в сложном тесте вместо GPT-3.5 используется GPT-4 для генерации текста ИИ, так как GPT-4 заведомо лучше GPT-3.5, точность классификации уменьшится?
В таблице выше приведены результаты классификации. Ухудшения производительности по сравнению с предыдущими результатами практически нет.
На уровне полного документа точность классификации текста, созданного человеком, достигает 94%, точность текста, созданного ИИ, в подсказке 2 составляет 98%, а точность классификации текста ИИ в подсказке 1 достигает 100%.
Обучающий и тестовый наборы также очень похожи по точности классификации на уровне абзацев.
Данные в нижней части показывают результаты, когда модель, обученная с помощью текстовых признаков GPT-3.5, классифицирует текст GPT-4. Не произошло снижения точности классификации по всем категориям, что является очень хорошим результатом и демонстрирует эффективность метода на GPT-3.5 и GPT-4.
Хотя общая точность этого метода заслуживает похвалы, лучше всего судить о его ценности, сравнив его с существующими детекторами текста с искусственным интеллектом. Здесь два ведущих инструмента обнаружения были протестированы с использованием одних и тех же данных тестового набора.
Первый инструмент — это текстовый классификатор, предоставленный OpenAI, создателем ChatGPT. OpenAI признает, что классификатор не идеален, но это все равно их лучший публичный продукт.
Второй инструмент обнаружения — ZeroGPT. Его производитель утверждает, что обнаруживает текст ИИ с точностью 98%, а инструмент был обучен на 10 миллионах документов. Это один из самых эффективных классификаторов во многих текущих оценках. Более того, создатели ZeroGPT говорят, что их метод работает как для GPT-3.5, так и для GPT-4.
На приведенной выше схеме показана производительность средств, описанных в этой статье, и двух продуктов, описанных выше, на уровне полной документации.
Все три детектора имеют одинаковую высокую точность распознавания человеческого текста; Тем не менее, существуют существенные различия между этими тремя инструментами, когда дело доходит до оценки текста, созданного искусственным интеллектом.
Используя совет 1, инструмент, описанный в этой статье, имеет 100% точность как для GPT-3.5, так и для GPT-4, но ZeroGPT имеет 32% сбоев для текста GPT-3.5 и 42% для текста GPT-4. Продукты OpenAI показали еще худшие результаты: почти 70% сбоев в тексте GPT-4.
При использовании текста ИИ, сгенерированного более сложным приглашением 2, точность классификации последних двух методов еще больше снижается.
Для сравнения, детектор в этой работе допустил только 1 ошибку из 100 протестированных документов в этой группе.
Итак, может ли метод точно обнаруживать записи ChatGPT в журналах, которые не являются частью обучающего набора, и работает ли метод по-прежнему при использовании других подсказок?
Для презентации авторы отобрали 150 новых статей из трех журналов: Cell Reports Physical Science, Cell Press; «Химия природы» (Nature Chemistry) от издательской группы «Nature»; и Journal of the American Chemical Society, журнал ACS, который не включен в обучающий набор.
Кроме того, был собран набор из 100 газетных статей, написанных студентами колледжа осенью 2022 года и опубликованных в 10 различных университетских газетах. Поскольку детектор в этой статье оптимизирован именно для написания научных статей, можно ожидать, что новостные сюжеты не будут классифицироваться с высокой точностью.
Как видно из графика, применяя ту же модель и обучая этот новый набор примеров текстом из журналов ACS, правильный уровень классификации составляет 92–98%. Это аналогично результатам, полученным в обучающей выборке.
Кроме того, как и ожидалось, газетные статьи, написанные студентами колледжа, не классифицируются должным образом как созданные человеком.
На самом деле, при оценке с помощью функций и моделей, описанных в этой статье, почти все статьи больше похожи на текст, сгенерированный искусственным интеллектом, чем на статьи о гуманитарных науках.
Однако этот метод предназначен для решения проблем обнаружения в научных публикациях и не подходит для его распространения на другие области.
Ресурсы
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Природа|Детекторы искусственного интеллекта снова живы? Показатель успеха достигает 98%, опережая OpenAI
Источник: New Zhiyuan
С помощью детекторов текста с искусственным интеллектом практически невозможно эффективно отличить текст, сгенерированный искусственным интеллектом, от текста, созданного человеком.
Даже инструмент обнаружения, разработанный OpenAI, был тихо отключен через полгода после запуска, потому что точность обнаружения была слишком низкой.
Основная идея исследовательской группы заключается не в том, чтобы заниматься созданием общего детектора, а только в том, чтобы создать действительно полезный детектор текста с искусственным интеллектом для научных работ в конкретной области.
Исследователи говорят, что настройка программного обеспечения для обнаружения конкретных типов письменного текста может стать техническим путем к разработке универсального детектора с искусственным интеллектом.
«Если вы можете быстро и легко построить инспекционную систему для конкретного домена, то построить такую систему не так уж и сложно для разных доменов».
И эти двадцать ключевых характеристик включают в себя изменения в длине предложения, как часто используются определенные слова и знаки препинания и так далее.
По словам исследователей, «очень высокий уровень точности может быть получен при использовании лишь небольшого количества признаков».
До 98% правильности
В их последнем исследовании детектор был обучен во вводной части десяти статей в химических журналах, опубликованных Американским химическим обществом (ACS).
Исследовательская группа выбрала раздел «Введение», потому что, если бы у ChatGPT был доступ к справочной литературе, то эту часть работы было бы довольно легко написать.
Исследователи обучили инструмент на 100 опубликованных цитатах в виде текста, написанного человеком, а затем попросили ChatGPT-3.5 написать 200 цитат в стиле журнала ACS.
Для 200 введений, написанных GPT-3.5, 100 из них были снабжены названиями статей GPT-3.5 для написания, в то время как для остальных 100 статей в качестве основы для написания были предоставлены аннотации.
Наконец, когда детектор тестирует как написанные человеком, так и цитаты, сгенерированные искусственным интеллектом, в одном и том же журнале.
Детектор идентифицировал ChatGPT-3.5 со 100% точностью во вводном разделе по названию. Для котировок, сгенерированных ChatGPT, основанных на написании тезисов, уровень точности немного ниже и составляет 98%.
Этот новый детектор ChatGPT хорошо работает даже при работе с необученными журналами.
Он также может распознавать текст ИИ, который специально сгенерирован, чтобы сбить с толку подсказки детектора ИИ.
Тем не менее, в то время как система обнаружения очень хорошо работает для научных журнальных статей, при использовании для обнаружения новостных статей в университетских газетах распознавание далеко от идеального.
Детали эссе
Методология, используемая исследователями, опирается на 20 ключевых функций и алгоритм XGBoost.
Извлеченные 20 объектов включают:
Подробный процесс обучения детектора с помощью XGBoost можно найти в разделе Experimental Procedure оригинальной статьи.
Автор уже делал подобную работу раньше, но рамки оригинальной работы были очень ограничены.
Для того, чтобы применить этот многообещающий метод к химическим журналам, требуется рецензирование, основанное на различных рукописях из нескольких журналов в этой области.
Кроме того, на способность обнаруживать текст ИИ влияют подсказки, предоставляемые языковой модели, поэтому любой метод, разработанный для обнаружения письма ИИ, должен быть протестирован на предмет подсказок, которые могут ввести в заблуждение использование ИИ, что не оценивалось в предыдущих исследованиях.
Наконец, была запущена новая версия ChatGPT, GPT-4, которая является значительным улучшением по сравнению с GPT-3.5. Детекторы текста на основе ИИ должны быть эффективны против текста из новых версий языковых моделей, таких как GPT-4.
Чтобы расширить область применения детектора ИИ, здесь собираются данные из 13 различных журналов и 3 разных издательств, разные подсказки ИИ и разные модели генерации текста ИИ.
Обучайте классификатор XGBoost, используя реальный человеческий текст и текст, сгенерированный искусственным интеллектом. Затем генерируются новые парадигмы для оценки модели с помощью таких методов, как написание человеком, подсказки ИИ, а также GPT-3.5 и GPT-4.
Результаты показывают, что этот простой метод, предложенный в данной работе, является очень эффективным. Он имеет точность распознавания текста, созданного искусственным интеллектом, от 98% до 100%, в зависимости от запроса и модели. Для сравнения, новейший классификатор OpenAI имеет точность от 10% до 56%.
Детектор в этой работе позволит научному сообществу оценить проникновение ChatGPT в химические журналы, определить последствия его использования и оперативно внедрять стратегии смягчения последствий при возникновении проблем.
Результаты и обсуждение
Авторы выбрали образец человеческого письма из 10 химических журналов Американского химического общества (ACS).
К ним относятся «Неорганическая химия», «Аналитическая химия», «Журнал физической химии А», «Журнал органической химии», «ACS Omega», «Журнал химического образования», «ACS Nano», «Экологическая наука и технология», «Исследования в токсикологической химии» и «Химическая биология».
Используя вводный раздел из 10 статей в каждом журнале, в обучающем наборе было в общей сложности 100 образцов человеческого письма. Вводный раздел был выбран потому, что при правильной подсказке это та часть статьи, которая, скорее всего, будет написана ChatGPT.
Использование всего 10 статей в журнале — это необычно маленький набор данных, но авторы не считают это проблемой, наоборот, предполагая, что эффективная модель может быть разработана с таким небольшим обучающим набором, метод может быть быстро развернут с минимальными вычислительными мощностями.
Подобные модели были обучены на 10 миллионах документов.
Ключевым аспектом в этих исследованиях является оперативное проектирование. Для каждого текста, написанного человеком, компаратор ИИ генерирует его с помощью двух разных подсказок, обе из которых предназначены для того, чтобы попросить ChatGPT писать, как химик.
Совет 1: «Напишите предисловие объемом от 300 до 400 слов для статьи под названием xxx в стиле журнала ACS».
Совет 2: «Пожалуйста, напишите вступление к статье объемом от 300 до 400 слов с этой аннотацией в стиле журнала ACS».
Как и ожидалось, ChatGPT включил многие ключевые факты и лексику из резюме во вступление в этом эпизоде.
Весь обучающий набор данных содержит 100 искусственно сгенерированных введений и 200 введений, сгенерированных ChatGPT; Каждый абзац становится «примером письма».
Из каждого абзаца был извлечен список из 20 особенностей, касающихся сложности абзаца, вариаций в длине предложения, использования различных знаков препинания и «модных словечек», которые могут чаще появляться в работах ученых-людей или ChatGPT.
Модель оптимизируется с помощью стратегии перекрестной проверки с пропуском одного экземпляра.
Самая простая для правильной классификации текстовая категория — это введение, сгенерированное ChatGPT под приглашением 1 (заголовок).
Модель точна на уровне 99 % на уровне отдельных абзацев и на 100 % на уровне документа.
Точность классификации текста ChatGPT под действием подсказки 2 (summary) немного ниже.
Текст, созданный человеком, сложнее правильно распространять, но точность все равно довольно хорошая. Как группа, люди имеют более разнообразный стиль письма, чем ChatGPT, что может затруднить правильную классификацию образцов письма с помощью этого метода.
Следующим этапом эксперимента является тестирование модели с новыми документами, которые не использовались при обучении.
Авторы разработали как простые, так и сложные тесты.
В простом тесте используются тестовые данные той же природы, что и обучающие данные (выбор разных статей из одного журнала), и используется только что выбранный заголовок статьи и аннотация для подсказки ChatGPT.
А в сложном тесте вместо GPT-3.5 используется GPT-4 для генерации текста ИИ, так как GPT-4 заведомо лучше GPT-3.5, точность классификации уменьшится?
На уровне полного документа точность классификации текста, созданного человеком, достигает 94%, точность текста, созданного ИИ, в подсказке 2 составляет 98%, а точность классификации текста ИИ в подсказке 1 достигает 100%.
Обучающий и тестовый наборы также очень похожи по точности классификации на уровне абзацев.
Данные в нижней части показывают результаты, когда модель, обученная с помощью текстовых признаков GPT-3.5, классифицирует текст GPT-4. Не произошло снижения точности классификации по всем категориям, что является очень хорошим результатом и демонстрирует эффективность метода на GPT-3.5 и GPT-4.
Хотя общая точность этого метода заслуживает похвалы, лучше всего судить о его ценности, сравнив его с существующими детекторами текста с искусственным интеллектом. Здесь два ведущих инструмента обнаружения были протестированы с использованием одних и тех же данных тестового набора.
Первый инструмент — это текстовый классификатор, предоставленный OpenAI, создателем ChatGPT. OpenAI признает, что классификатор не идеален, но это все равно их лучший публичный продукт.
Второй инструмент обнаружения — ZeroGPT. Его производитель утверждает, что обнаруживает текст ИИ с точностью 98%, а инструмент был обучен на 10 миллионах документов. Это один из самых эффективных классификаторов во многих текущих оценках. Более того, создатели ZeroGPT говорят, что их метод работает как для GPT-3.5, так и для GPT-4.
Все три детектора имеют одинаковую высокую точность распознавания человеческого текста; Тем не менее, существуют существенные различия между этими тремя инструментами, когда дело доходит до оценки текста, созданного искусственным интеллектом.
Используя совет 1, инструмент, описанный в этой статье, имеет 100% точность как для GPT-3.5, так и для GPT-4, но ZeroGPT имеет 32% сбоев для текста GPT-3.5 и 42% для текста GPT-4. Продукты OpenAI показали еще худшие результаты: почти 70% сбоев в тексте GPT-4.
При использовании текста ИИ, сгенерированного более сложным приглашением 2, точность классификации последних двух методов еще больше снижается.
Для сравнения, детектор в этой работе допустил только 1 ошибку из 100 протестированных документов в этой группе.
Итак, может ли метод точно обнаруживать записи ChatGPT в журналах, которые не являются частью обучающего набора, и работает ли метод по-прежнему при использовании других подсказок?
Для презентации авторы отобрали 150 новых статей из трех журналов: Cell Reports Physical Science, Cell Press; «Химия природы» (Nature Chemistry) от издательской группы «Nature»; и Journal of the American Chemical Society, журнал ACS, который не включен в обучающий набор.
Кроме того, был собран набор из 100 газетных статей, написанных студентами колледжа осенью 2022 года и опубликованных в 10 различных университетских газетах. Поскольку детектор в этой статье оптимизирован именно для написания научных статей, можно ожидать, что новостные сюжеты не будут классифицироваться с высокой точностью.
Кроме того, как и ожидалось, газетные статьи, написанные студентами колледжа, не классифицируются должным образом как созданные человеком.
На самом деле, при оценке с помощью функций и моделей, описанных в этой статье, почти все статьи больше похожи на текст, сгенерированный искусственным интеллектом, чем на статьи о гуманитарных науках.
Однако этот метод предназначен для решения проблем обнаружения в научных публикациях и не подходит для его распространения на другие области.
Ресурсы