Исследователи предложили методику инженерии признаков, которая позволяет управлять поведением модели через вмешательство в управляющие векторы.

MeNews · 2026-04-04T22:47:51+00:00

Метод исследования под названием "Инженерия признаков" предложил "контрольные векторы", предназначенные для повышения прозрачности и управляемости AI-моделей. Этот метод путем добавления векторов в модель напрямую изменяет вывод, демонстрируя преимущества по сравнению с техникой подсказок. Исследование изучило его применение в моделировании характеристик и выпустило соответствующий набор инструментов. Однако внутренняя механика все еще не полностью ясна, требуется дальнейшее исследование.

MeNews

2026-04-04 22:47:51

Генерация тезисов в процессе

ME Новости, сообщение от 4 апреля (UTC+8): в последнее время был предложен исследовательский метод под названием «representation engineering» («инженерия представлений»), предназначенный для предоставления AI-моделям сверху вниз прозрачности и механизма контроля. В основе метода лежит вычисление «вектора управления», который можно считывать при логическом выводе модели или добавлять к значениям активаций модели, чтобы объяснять или контролировать поведение модели; при этом весь процесс не требует зависимости от инженерии подсказок или дообучения модели. Исследователи изучали применение вектора управления для моделирования таких свойств, как «психоделическое состояние», «лень» и «трудолюбие», и опубликовали соответствующий пакет инструментов для PyPI.

Вектор управления — это набор векторов (по одному на каждый слой), который путем применения к скрытым состояниям модели напрямую меняет ее выход. Например, после применения к модели Mistral-7B-Instruct «веселого» вектора ответ на вопрос «каково быть ИИ?» меняется с исходного варианта «у меня нет ощущений или опыта» на взволнованный ответ. Авторы статьи считают, что по сравнению с инженерией подсказок векторы управления обеспечивают более прямой и более низкоуровневый способ вмешательства в поведение, который можно использовать для противодействия джейлбрейк-атакам или для усиления устойчивости модели к помехам. Однако его внутренние механизмы по-прежнему не полностью ясны: например, соответствуют ли векторы одному-единственному семантическому понятию — это направление будущих исследований. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков