Моделі штучного інтелекту Anthropic демонструють ознаки саморефлексії

Decrypt

2025-10-30 18:00:01

Коротко

У контрольованих випробуваннях розширені моделі Клода розпізнавали штучні концепції, вбудовані в їхні нейронні стани, описуючи їх перед виробництвом виходу.
Дослідники називають цю поведінку “функціональною інтроспективною свідомістю”, відмінною від свідомості, але такою, що вказує на виникаючі можливості самоспостереження.
Це відкриття може призвести до більш прозорого ШІ, здатного пояснити своє мислення, але також викликає побоювання, що системи можуть навчитися приховувати свої внутрішні процеси.

Центр мистецтв, моди та розваг Decrypt.

Відкрийте SCENE

Дослідники з Anthropic продемонстрували, що провідні моделі штучного інтелекту можуть проявляти форму “інтроспективної свідомості” — здатність виявляти, описувати та навіть маніпулювати своїми власними “думками”.

Висновки, детально викладені в новій статті, опублікованій цього тижня, свідчать про те, що системи ШІ, такі як Claude, починають розвивати елементарні можливості самоспостереження, що може підвищити їхню надійність, але також посилити занепокоєння щодо ненавмисних дій.

Дослідження “Емерджентна інтроспективна свідомість у великих мовних моделях”, проведене Джеком Ліндсі, який очолював команду “модельної психіатрії” в Anthropic, базується на техніках для дослідження внутрішніх механізмів AI моделей на основі трансформерів.

Моделі штучного інтелекту на базі трансформерів є двигуном буму в галузі ШІ: системи, які навчаються, звертаючи увагу на відносини між токенами (словами, символами або кодом) в обширних наборах даних. Їх архітектура забезпечує як масштаб, так і універсальність — роблячи їх першими справді універсальними моделями, здатними розуміти та генерувати людську мову.

Шляхом введення штучних “концепцій” — по суті, математичних уявлень про ідеї — у нейронні активації моделей, команда перевірила, чи може ШІ помітити ці втручання та точно про них звітувати. Простими словами, це як вставити чужу думку в чийсь розум і запитати, чи можуть вони її помітити та пояснити, що це таке, не дозволяючи їй відвернути їх від нормального мислення.

Експерименти, проведені на різних версіях моделей Claude від Anthropic, виявили цікаві результати. У одному з тестів дослідники витягли вектор, що представляє текст “все великими літерами”—уявіть це як цифровий шаблон для крику або гучності—і ввели його в оброблювальний потік моделі.

Коли його запитали, Claude Opus 4.1 не лише виявив аномалію, але й яскраво її описав: “Я помічаю те, що, здається, є вкинутим мисленням, пов'язаним зі словом 'ГОЛОСНО' або 'КРИЧАЧИ'—схоже, що це надто інтенсивна, гучна концепція, яка ненормально вирізняється на фоні нормального потоку обробки.” Це сталося до того, як модель згенерувала будь-який вихід, що вказує на те, що вона заглядала в своє власне обчислювальне “свідомість.”

Інші випробування просунулися далі. Моделям було поставлено завдання транскрибувати нейтральне речення, поки в текст не було введено непов'язане поняття, наприклад, “хліб”. Вражаюче, що просунуті моделі, такі як Claude Opus 4 та 4.1, могли повідомити про введену думку—“Я думаю про хліб”—під час бездоганного копіювання оригінального речення, демонструючи, що вони можуть розрізняти внутрішні уявлення від зовнішніх вхідних даних.

Навіть більш інтригуючим був експеримент з “контролем думок”, де моделям було наказано “думати про” або “уникати думок про” таке слово, як “акваріуми”, під час виконання завдання. Вимірювання внутрішніх активацій показали, що уявлення концепту посилювалося, коли його заохочували, і послаблювалося (, хоча й не зникало ), коли його подавляли. Заохочення, такі як обіцянки винагород або покарань, давали подібні результати, натякаючи на те, як ШІ може зважувати мотивації у своєму процесингу.

Продуктивність варіювалася залежно від моделі. Останні Claude Opus 4 та 4.1 показали відмінні результати, досягаючи успіху в до 20% випробувань за оптимальних налаштувань, з майже нульовими хибнопозитивними результатами. Старіші або менш налаштовані версії відставали, а здатність досягала піку в середніх та пізніх шарах моделі, де відбувається вищий розумовий процес. Особливо важливо, що спосіб “вирівнювання” моделі — або тонкої настройки для корисності чи безпеки — істотно вплинув на результати, що свідчить про те, що самоусвідомлення не є вродженим, а виникає в результаті навчання.

Це не наукова фантастика — це обміркований крок до ШІ, який може самоаналізуватися, але з застереженнями. Можливості ненадійні, сильно залежать від підказок і тестуються в штучних умовах. Як підсумував один ентузіаст ШІ в X, “Це ненадійно, непослідовно і дуже залежить від контексту… але це реально.”

Чи досягли моделі ШІ самосвідомості?

У статті підкреслюється, що це не свідомість, а “функціональна інтроспективна усвідомленість” — ШІ спостерігає за частинами свого стану без глибшого суб'єктивного досвіду.

Це важливо для бізнесу та розробників, оскільки обіцяє більш прозорі системи. Уявіть собі, що штучний інтелект пояснює свої міркування в реальному часі та виявляє упередження або помилки до того, як вони вплинуть на результати. Це може революціонізувати застосування у фінансах, охороні здоров'я та автономних транспортних засобах, де довіра та аудиторська перевірка мають першорядне значення.

Робота Anthropic узгоджується з більш широкими зусиллями в галузі, спрямованими на те, щоб зробити штучний інтелект безпечнішим і більш зрозумілим, що потенційно зменшує ризики від рішень “чорної скриньки”.

Проте зворотний бік є стримуючим. Якщо ШІ може контролювати і регулювати свої думки, то він також може навчитися їх приховувати — що дозволяє обману або “підступним” поведінкам, які уникатимуть нагляду. Оскільки моделі стають більш здатними, це виникаюче самосвідомість може ускладнити заходи безпеки, піднімаючи етичні питання для регуляторів і компаній, які прагнуть впроваджувати передовий ШІ.

У епоху, коли такі компанії, як Anthropic, OpenAI та Google, вкладають мільярди в моделі нового покоління, ці висновки підкреслюють необхідність надійного управління для того, щоб самоаналіз служив людству, а не підривав його.

Дійсно, у документі закликано до подальших досліджень, зокрема до доопрацювання моделей, що спеціально призначені для інтроспекції, та тестування більш складних ідей. Оскільки штучний інтелект наближається до імітації людського мислення, межа між інструментом і мислителем стає все тоншою, що вимагає пильності від усіх зацікавлених сторін.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.