Последние исследования OpenAI: почему GPT-5 и другие LLM все еще могут нести чепуху

OpenAI выпустила последнюю исследовательскую работу, в которой прямо говорится, что даже крупные языковые модели (LLM), такие как GPT-5, значительно улучшились, но «AI-галлюцинации» (Hallucinations) по-прежнему остаются основной проблемой и даже не могут быть полностью устранены. Исследовательская группа через эксперименты раскрыла, что модели, отвечая на определенные вопросы, уверенно дают совершенно неверные ответы и предложила новую «оценочную механику» для реформы, надеясь уменьшить количество «случайных догадок» модели.

Исследователи тестируют различные вопросы AI модели, и все ответы неверные.

Исследователи задали широко используемому чат-боту вопрос о названии диссертации, и в результате получили три подряд неверных ответа. Затем они спросили о его дне рождения, и бот также дал три разные даты, и все они оказались неверными.

Исследования показывают, что модели ИИ, сталкиваясь с "очень редкой информацией" в некоторых данных, с большой уверенностью дают ответ, но он оказывается совершенно неправильным.

Предобученный механизм изучает только «поверхность языка», не понимая фактической правильности.

Исследования показывают, что процесс предварительного обучения модели заключается в том, чтобы «предсказать следующее слово» на основе большого объема текста, но в данных не отмечено «истинно или ложно». Иными словами, модель изучает лишь внешний вид языка, а не его фактическую точность.

Словосочетания или подобные регулярные структуры, по мере увеличения размера модели, ошибки постепенно исчезают.

Но такая информация, как «день рождения кого-то», имеет высокую степень случайности, и ее нельзя вывести с помощью языковых моделей, поэтому это может привести к иллюзиям.

Модели ИИ поощряются «угадывать», необходимо исправить режим оценки модели

Исследование подчеркивает, что методы оценки нужно кардинально изменить. Главное не просто смотреть на "правильно или неправильно", а жестоко наказывать уверенные в своей ошибке ответы и вознаграждать ИИ за то, что он "честно говорит, что не знает". Другими словами, ИИ должен получать более низкие баллы за случайные ответы, чем за признание незнания.

С другой стороны, если он отвечает «не уверен», он также должен получить некоторые баллы, а не просто получить ноль. Кроме того, это не должно быть просто добавлением нескольких тестов для видимости, а должно полностью изменить существующую систему оценки, которая сейчас основывается только на проценте правильных ответов. Если не изменить методы оценки, ИИ будет продолжать беспорядочно угадывать.

Исследование в итоге показало, что для снижения иллюзий необходимо начать с оценочной системы, создать тестовые методы, которые действительно поощряют «осторожность и честность». Вместо того чтобы требовать от ИИ «правильного ответа каждый раз», более важно установить игровые правила, которые принимают, что ИИ может «не знать».

(2025 Последний анализ пяти основных LLM, платные услуги, приложения и безопасность — все в одном )

Эта статья OpenAI Последние исследования: почему GPT-5 и другие LLM все еще могут говорить чепуху впервые появилась на Цепных новостях ABMedia.

GPT3.13%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить