2026-03-07 16:32:57

мнение, которое не популярно: запуск моделей ИИ становится скучным.

не потому, что модели не улучшаются.. они улучшаются.
но каждый релиз — это просто.. бенчмарки.
@OpenAI только что выпустили GPT-5.4, и вся анонс — это в основном эта таблица.
75% на OSWorld. 57.7% на SWE-Bench Pro. 94.4% на GPQA Diamond.
классно.. но что это значит для меня, который что-то строит в 2 часа ночи?
никому за пределами AI twitter не интересно улучшение на 2% по MMLU. никому. ноль человек.
самое забавное? посмотрите внимательно на таблицу..
> Opus 4.6 почти на каждом бенчмарке в пределах досягаемости.
> Gemini 3.1 Pro тихо обходит всех по BrowseComp с 85.9%.
"Победитель" меняется в зависимости от строки, на которую вы смотрите.
знаете, что я действительно хочу увидеть?
покажите мне грязную реальную задачу, которую он лучше решает, чем раньше. покажите мне демо, которое немного взорвет мой мозг. покажите мне кого-то, кто что-то строит с этим, что было невозможно в прошлом месяце.
лучший бенчмарк — это "сделало ли это мою жизнь проще?"
вот и всё. это вся оценка.
компании тут празднуют математику, а пользователи просто хотят знать, сможет ли он наконец справиться с 4K кодовой базой, не ломая половину функций.
начинайте с этого.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

2 Лайков