#OpenAIGPT5.6


GPT-5.6 здесь. Вы не можете им пользоваться.

Три дня назад OpenAI выпустила семейство своих самых мощных моделей на сегодняшний день — и практически никто не смог к ним прикоснуться.

26 июня OpenAI представила GPT-5.6: три модели под названиями Sol, Terra и Luna. Sol — флагман, Terra — сбалансированная модель среднего уровня, а Luna — быстрый и дешёвый вариант. На бумаге это именно то, что рынок ожидал после GPT-5.5 — более строгая схема именования, чёткая ценовая лестница и новый режим рассуждений «Ultra» на Sol, который запускает подзадачи для сложных заданий. Ценообразование говорит само за себя о том, как OpenAI видит уровни: Sol остаётся на уровне $5/$30 за миллион токенов (как и GPT-5.5), Terra снижает вдвое до $2.50/$15, а Luna опускается до $1/$6. Это не скидка на старые возможности — OpenAI предлагает Terra как интеллект уровня GPT-5.5 по половинной цене, а Luna как массовую модель для всего, что не требует передовых рассуждений.

Само название — тихий сигнал. OpenAI отказался от «mini» и «nano», потому что внутри эти модели не меньше — они просто настроены на разные задачи. 5.6 — это семейство; Sol, Terra и Luna — позиции, которые будут развиваться независимо. Это тот же принцип разделения продуктов, который Anthropic использует с Opus, Sonnet и Haiku, только с небесными именами вместо музыкальных.

Важный бенчмарк — и тот, который не имеет значения

OpenAI решил опубликовать только один бенчмарк: Terminal-Bench 2.1, который тестирует реальные задачи кодирования в терминальной среде — планирование, итерацию, координацию инструментов. Sol набрал 91.9%. Это превосходит Claude Mythos 5 с 88.0% и является новым рекордом на этом конкретном тесте.

Вот загвоздка: Terminal-Bench 2.1 — это собственные отчёты OpenAI по выбранному ими же бенчмарку. Когда Anthropic запустил те же модели через свой мини-набор SWE-agent, GPT-5.5 упал с 88 до примерно 81-83 — отрыв сужается или меняется на противоположный, когда каждая модель работает на одном оценщике. OpenAI не опубликовал результаты SWE-Bench Pro, FrontierCode или Humanity's Last Exam — всех бенчмарков, где Claude Fable 5 (который разделяет веса Mythos 5) установил рекорды до того, как был отозван. Так что да, Sol бьёт Mythos на Terminal-Bench. Бьёт ли он Mythos в целом — это утверждение, которое OpenAI выдвинул осторожно, с оговорками.

Есть и ещё одна сложность. Паспорт безопасности OpenAI классифицирует все три модели GPT-5.6 — не только Sol — как «высокий» риск как по кибер-, так и по биологическим/химическим возможностям. Они оценили ниже этого порога для самоулучшения ИИ. OpenAI также отметил, что Sol «лучше помогает людям находить и устранять уязвимости, чем надёжно проводить атаки от начала до конца» — тщательно сформулированное заверение, которое не говорит, что он не может проводить атаки, просто что он лучше в защитной стороне. И OpenAI пересмотрел свою систему готовности в апреле, удалив некоторые области предыдущих исследований. Эти детали не попадают в заголовки, но именно их читают политики.

Реальная история: Вашингтон теперь включён в цикл выпуска

Причина, по которой вы не можете использовать GPT-5.6 прямо сейчас, не в инженерии. Это политика.

За две недели до этого запуска администрация Трампа издала директиву по экспортному контролю против Anthropic, вынудив компанию отключить весь доступ к Fable 5 и Mythos 5 по всему миру — не только для иностранных граждан, но и для всех, потому что изолировать иностранный доступ технически было невозможно. Триггером стал сообщённый взлом Fable 5, который продемонстрировал, что можно извлечь возможности уровня кибероружия. По словам Дэвида Сакса, бывшего ИИ-куратора администрации, генеральный директор Anthropic Дарио Амодей отказался исправлять взлом или отзывать модель до выдачи приказа.

Когда OpenAI собирался запустить GPT-5.6, Управление национального кибердиректора и Управление научно-технической политики Белого дома попросили OpenAI ограничить развёртывание примерно 20 одобренными правительством партнёрами перед любым более широким выпуском. Администрация рассматривает GPT-5.6 как «на уровне» возможностей Mythos. OpenAI согласился — но с заметным сопротивлением. Сэм Альтман сказал сотрудникам, что такой подход «не является нашей предпочтительной долгосрочной моделью» и что OpenAI будет работать над «более устойчивым подходом для будущих выпусков». В собственном блоге компании ограниченное развёртывание назвали «неустойчивым».

Таким образом, у нас фактически новые ворота: передовые модели теперь проходят через процесс одобрения правительством перед публичным доступом. Формальной структуры пока нет — кибер-исполнительный указ ещё разрабатывается. OpenAI рассматривает ограниченный предварительный просмотр как «краткосрочный шаг» и обещает более широкую доступность «в ближайшие недели», при этом Альтман сообщил журналистам, что правительство сигнализировало, что такие сроки, вероятно, приемлемы. Anthropic, тем временем, только что получил частичное исключение — Mythos 5 теперь может быть повторно развёрнут для организаций США, управляющих критической инфраструктурой, хотя Fable 5 остаётся полностью приостановленным.

Почему это важнее, чем бенчмарки

Запуск GPT-5.6 — это не столько история о технологиях. Это история об управлении, упакованная в анонс продукта.

Рассмотрим хронологию: Anthropic выпускает Fable 5 9 июня. В течение нескольких дней демонстрируется взлом. К 13 июня приказ об экспортном контроле вынуждает полностью отключить. Две недели переговоров, сотрудники Anthropic разбили лагерь в Вашингтоне. К 26 июня OpenAI запускает GPT-5.6 в ограниченном предварительном доступе, согласованном с той же администрацией. Послание каждой лаборатории ИИ ясно: если ваша модель достигает возможностей уровня Mythos, правительство США будет участвовать в вашем процессе выпуска, хотите вы этого или нет.

Это и есть сдвиг, который никто не называет. Мы перешли от «лаборатория решает, когда и как выпускать» к «правительство решает, кто получает доступ первым». Структуры пока нет. Процесс ad hoc. Критерии непрозрачны. OpenAI сотрудничает, потому что видит в этом самый быстрый путь к eventual широкому выпуску. Anthropic боролся и проиграл. Следующая лаборатория — Google DeepMind, кто угодно — столкнётся с теми же воротами.

Для разработчиков и предприятий практическое влияние немедленно. Ваш ChatGPT всё ещё на GPT-5.5. В вашем API нет конечных точек GPT-5.6. Примерно 20 одобренных партнёров — это крупные организации, проверенные правительством. Если вы строите продукты, зависящие от доступа к передовым моделям, в вашем дорожном карте теперь появилась переменная, которую вы не можете контролировать: график одобрения Вашингтона.

Ценообразование агрессивно — и это стратегический ход

Terra по половинной цене флагмана за возможности уровня GPT-5.5 — это не просто выгодная сделка. Это создание рва. OpenAI устанавливает цены на Terra и Luna, чтобы сделать все другие модели среднего и бюджетного сегментов нерентабельными. Если Terra обеспечивает качество GPT-5.5 за $2.50/$15, давление на маржу моделей Sonnet от Anthropic и средних моделей Google становится реальным. Luna за $1/$6 нацелена прямо на массовые развёртывания — кол-центры, конвейеры контента, задачи классификации — где стоимость токена важнее пикового интеллекта.

Такое ценообразование работает только в масштабах OpenAI и только если широкий доступ появится скоро. Модель, которую могут использовать 20 компаний, — это не ценовое оружие. Это демо. Реальное конкурентное влияние зависит от того, выйдет ли GPT-5.6 в общий доступ через недели, как обещано, или правительственные ворота задержат его дольше.

За чем я слежу дальше

Выполнится ли обещание «ближайших недель». Середина июля — предполагаемая цель для более широкого доступа к ChatGPT и API. Любая задержка меняет конкурентное окно.

Следующий шаг Anthropic. Mythos 5 получил частичное исключение для организаций критической инфраструктуры. Fable 5 всё ещё отключён. Планы IPO Anthropic, по сообщениям, идут по графику на конец года — но нельзя выходить на биржу с флагманской моделью под экспортным контролем.

Структура исполнительного указа. Сейчас процесс ведётся в каждом конкретном случае без опубликованных критериев. Как только появятся формальные правила, они определят ворота выпуска для каждой лаборатории, а не только для OpenAI и Anthropic.

Перекрёстная проверка бенчмарков. 91.9% Sol на Terminal-Bench впечатляет. Независимая оценка на оснастке Anthropic и в более широких наборах бенчмарков определит, является ли это настоящим скачком возможностей или ограниченным утверждением.

GPT-5.6 — самая мощная модель, когда-либо созданная OpenAI. Это не оспаривается. Но история этого запуска — не модель, а ворота. Впервые выпуск передового ИИ не пошёл напрямую к пользователям. Сначала он пошёл в Вашингтон, и Вашингтон решил, кто войдёт. То, как эти ворота будут развиваться, определит следующее десятилетие развёртывания ИИ больше, чем любой результат бенчмарков.
Посмотреть Оригинал
post-image
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено