мнение, которое не популярно: запуск моделей ИИ становится скучным.


не потому, что модели не улучшаются.. они улучшаются.
но каждый релиз — это просто.. бенчмарки.
@OpenAI только что выпустили GPT-5.4, и вся анонс — это в основном эта таблица.
75% на OSWorld. 57.7% на SWE-Bench Pro. 94.4% на GPQA Diamond.
классно.. но что это значит для меня, который что-то строит в 2 часа ночи?
никому за пределами AI twitter не интересно улучшение на 2% по MMLU. никому. ноль человек.
самое забавное? посмотрите внимательно на таблицу..
> Opus 4.6 почти на каждом бенчмарке в пределах досягаемости.
> Gemini 3.1 Pro тихо обходит всех по BrowseComp с 85.9%.
"Победитель" меняется в зависимости от строки, на которую вы смотрите.
знаете, что я действительно хочу увидеть?
покажите мне грязную реальную задачу, которую он лучше решает, чем раньше. покажите мне демо, которое немного взорвет мой мозг. покажите мне кого-то, кто что-то строит с этим, что было невозможно в прошлом месяце.
лучший бенчмарк — это "сделало ли это мою жизнь проще?"
вот и всё. это вся оценка.
компании тут празднуют математику, а пользователи просто хотят знать, сможет ли он наконец справиться с 4K кодовой базой, не ломая половину функций.
начинайте с этого.
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$0.1Держатели:1
    0.00%
  • РК:$2.39KДержатели:1
    0.00%
  • РК:$2.42KДержатели:1
    0.00%
  • РК:$0.1Держатели:0
    0.00%
  • РК:$0.1Держатели:1
    0.00%
  • Закрепить