Купити криптовалюту

Оплачуйте

USD

Купити та продати

Підтримує Visa, Mastercard, SEPA тощо

Гнучка торгівля, нульові комісії

Платіть криптовалютою по всьому світу

Торгівля

Базовий

Вільно торгуйте криптовалютою

Збільшуйте свій прибуток за допомогою кредитного плеча

Конвертація та Автоінвестиції

Торгуйте будь-яким обсягом без комісій та прослизань

Отримайте швидкий доступ до позицій кредитного плеча

Передринкова торгівля

Торгуйте токенами до лістингу

Просунутий рівень

Торгуйте ончейн за допомогою Gate Wallet

Розумний доступ до ончейн-токенів

Стратегії автоматизованої торгівлі

Копіювання

Дотримуйтесь експертних стратегій

Торгівля CrossEx

Єдиний маржинальний баланс, спільний для всіх платформ

Ф'ючерси

Ф'ючерси

Сотні безстрокових контрактів

Одна платформа для світових активів

Торгівля ванільними опціонами європейського зразка

Єдиний рахунок

Максимізуйте ефективність вашого капіталу

Демо торгівля

Вступ до ф'ючерсної торгівлі

Підготуйтеся до ф’ючерсної торгівлі

Ф'ючерсні події

Заробляйте, беручи участь в подіях

Демо торгівля

Використовуйте віртуальні кошти для безризикової торгівлі

Запуск

Збирайте цукерки, щоб заробити аірдропи

Швидкий стейкінг, заробляйте нові токени

Утримуйте GT і отримуйте масові аірдропи безкоштовно

Отримайте повний доступ до глобальних IPO акцій.

Alpha Поінти

Ончейн-торгівля та аірдропи

Ф'ючерсні бали

Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди

Інвестиції

Заробляйте відсотки за допомогою неактивних токенів

Автоінвестування

Автоматичне інвестування на регулярній основі

Подвійні інвестиції

Прибуток від волатильності ринку

Earn rewards with flexible staking

Криптопозика

Заставте одну криптовалюту, щоб позичити іншу

Центр кредитування

Єдиний центр кредитування

Центр багатства VIP

Преміальні плани зростання капіталу

Управління приватним капіталом

Розподіл преміальних активів

Квантовий фонд

Квантові стратегії найвищого рівня

Стейкінг

Стейкайте криптовалюту, щоб заробляти на продуктах PoS

Розумне кредитне плече

Кредитне плече без ліквідації

Випуск GUSD

Мінтинг GUSD для прибутку RWA

Відкрийте для себе цінність криптовалют

Аналіз крипторинку в реальному часі

Спілкуйтеся з криптотрейдерами

Останні новини в світі криптовалют

Більше

Акції

Центр діяльності

Беріть учать та отримуйте винагороди

Запрошуйте друзів та отримуйте бонуси

Партнерська програма

Ексклюзивні комісійні винагороди

Зростайте та отримуйте аірдропи

Оголошення

Оновлення платформи в реальному часі

Статті про криптоіндустрію

VIP послуги

Величезні знижки на комісії

Управління активами

Універсальне рішення для управління активами

Інституційний

Рішення цифрових активів для бізнесу

Розробники (API)

Підключається до екосистеми додатків Gate

Позабіржовий банківський переказ

Поповнюйте та виводьте фіат

Брокерська програма

Щедрі механізми знижок API

AI

Ваш універсальний AI-помічник для спілкування

Використовуйте Gate AI безпосередньо у своєму соціальному додатку

Gate Блакитний Лобстер — готовий до використання

Gate for AI Agent

AI-інфраструктура, Gate MCP, Skills і CLI

Gate Skills Hub

Понад 10 000 навичок

Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI

Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)

Інші

Центр допомоги

Знайдіть поширені запитання та довідкові посібники

Дізнайтеся про криптоінвестування

Партнери

Зростайте разом з чемпіонами

Підтвердження резервів

Gate обіцяє 100% підтвердження резервів

Зберігайте свої активи в безпеці

Винагороди

Штучний інтелект все ще не може перевершити чергового інженера: ось чому

2026-05-18 21:11:18

Коротко

* ARFBench — перший тестовий стенд AI, створений цілком на основі реальних інцидентів у виробництві.
* GPT-5 лідирує серед усіх існуючих моделей AI з точністю 62,7%, але поступається експертам у галузі з 72,7%.
* Теоретична модель-експерт-оракул — поєднання AI та людського судження — досягає 87,2% точності, встановлюючи межу для того, чого можуть досягти колаборативні команди AI і людини.

Компанії з AI продовжують пропонувати автономних агентів з обслуговування надійності сайтів — AI, що досліджує інциденти у виробництві замість людей. Datadog провів реальний тест на справжніх збої, і найкращі моделі AI ще не можуть перевершити інженерів, яких вони мають замінити.
Тестовий стенд — ARFBench (Anomaly Reasoning Framework Benchmark), спільний проект Datadog і Карнегі-Меллон. Створений на основі 63 реальних інцидентів у виробництві, витягнутих із Slack-ланцюгів інженерів під час аварій — 750 питань з множинним вибором, що охоплюють 142 метрики моніторингу та 5,38 мільйонів даних, кожне питання перевірене вручну. Жодних синтетичних даних. Жодних сценаріїв із підручників.
"Триліони доларів щороку втрачаються через збої систем," — пишуть дослідники. Тестовий стенд перевіряє, чи може AI справді допомогти змінити цю ситуацію.

"Незважаючи на центральну роль аналізу, орієнтованого на питання, у реагуванні на інциденти, досі неясно, чи можуть сучасні базові моделі надійно відповідати на типи питань про часові ряди, які інженери ставлять на практиці," — йдеться у статті.

Питання поділяються на три рівні. Рівень I: Чи існує аномалія на цьому графіку? Рівень II: Коли вона почалася, наскільки вона серйозна, який тип?
Рівень III — найскладніший — вимагає міжметричного аналізу: Чи спричиняє цей графік проблему в іншому графіку? Саме тут AI руйнується. GPT-5 показує лише 47,5% F1 на питаннях рівня III, метриці, яка карає моделі за ігнорування відповіді, що ґрунтується на найпоширенішому класі.

"Незважаючи на центральну роль аналізу, орієнтованого на питання, у реагуванні на інциденти, досі неясно, чи можуть сучасні базові моделі надійно відповідати на типи питань про часові ряди, які інженери ставлять на практиці," — пишуть дослідники.
Як кожна модель показала себе
GPT-5 лідирує серед усіх моделей із точністю 62,7% — на тесті, де випадкове вгадування дає 24,5%. Gemini 3 Pro — 58,1%. Claude Opus — 54,8%. Claude Sonnet — 47,2%.
Експерти-галузевики — 72,7%. Неекспертні інженери з досліджень часових рядів у Datadog без глибокого досвіду в обсервабельності — 69,7%.
Жодна модель AI не перевершила жодну людську базову лінію.

Зображення створене Decrypt на основі CSV-таблиці ARFBench лідерборду

Модель, яка фактично очолила весь рейтинг — це гібрид Datadog: Toto — їхня внутрішня модель прогнозування часових рядів — у поєднанні з Qwen3-VL 32B. Toto-1.0-QA-Experimental показала 63,9% точності, обігнавши GPT-5, використовуючи при цьому менше параметрів. Щодо ідентифікації аномалій, вона перевершила всі інші моделі щонайменше на 8,8 пунктів у F1.
Цільова модель, спеціально створена для галузі, навчена на даних обсервабельності, перевершує передові універсальні системи у цій конкретній задачі — це і є очікуваний результат. Саме це і є суть.
Найціннішим висновком є не те, яка модель набрала найвищий бал.
"Ми спостерігаємо суттєво різні профілі помилок між провідними моделями та людськими експертами, що свідчить про їхню взаємодоповнюваність," — пишуть дослідники. Моделі галюцинують, пропускають метадані та втрачають контекст галузі. Люди неправильно читають точні часові позначки і іноді не справляються з складними інструкціями. Помилки майже не збігаються.

Модель — теоретичний "Модель-Експерт-Оракул" — ідеальний суддя, що завжди обирає правильну відповідь між AI і людиною, — дає 87,2% точності та 82,8% F1. Значно вище за будь-яку з них окремо.
Це не продукт. Це задокументована ціль — створена на основі реальних аварій, а не курованих наборів даних — яка точно кількісно показує, наскільки краще може працювати співпраця людини і AI. Лідерборд доступний на Hugging Face. GPT-5 — 62,7%. Межа — 87,2%.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
TradfiTradingChallenge
141.31K Популярність
#
PYTHUnlocks2.13BillionTokens
927.54K Популярність
#
IsraelStrikesIranBTCPlunges
47.99K Популярність
#
#DailyPolymarketHotspot
1.01M Популярність
#
TrumpDelaysIranStrike
16.08M Популярність

Закріплено

карта сайту