непопулярна думка: запуск моделей ШІ стає нудним.


не тому, що моделі не покращуються.. вони покращуються.
але кожен реліз — це просто.. бенчмарки.
@OpenAI щойно випустили GPT-5.4, і вся анонс — це в основному ця таблиця.
75% на OSWorld. 57.7% на SWE-Bench Pro. 94.4% на GPQA Diamond.
круто.. але що це означає для мене, який щохвилини щось створює о 2-й ночі?
ніхто за межами AI twitter не цікавиться 2% покращенням на MMLU. ніхто. ні однієї людини.
найсмішніше? подивіться уважно на таблицю..
> Opus 4.6 майже на межі у майже кожному бенчмарку.
> Gemini 3.1 Pro тихо обганяє всіх на BrowseComp з 85.9%.
"Переможець" змінюється залежно від рядка, на який дивишся.
А що я насправді хочу побачити?
покажіть мені хаотичне реальне завдання, яке воно краще виконує ніж раніше. покажіть мені демо, яке трохи зломить мій мозок. покажіть мені когось, хто щось створює з цим, чого не могло бути минулого місяця.
найкращий бенчмарк — це "чи зробило це моє життя легшим?"
ось і все. це вся оцінка.
компанії святкують результати з математики, а користувачі просто хочуть знати, чи зможе воно нарешті обробляти 4K кодову базу, не зламавши половину функцій.
почніть з цього.
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити