El responsable del sistema de seguridad de OpenAI repasó el largo artículo: el ataque adversario y la defensa de los grandes modelos

LLM son poderosos, y si alguien con motivos ocultos los usa para hacer cosas malas, puede tener consecuencias impredecibles y graves. Si bien la mayoría de los LLM comerciales y de código abierto tienen cierta seguridad integrada, no necesariamente protegen contra una variedad de ataques adversarios. Recientemente, Lilian Weng, jefa del equipo de Sistemas de Seguridad de OpenAI, publicó una entrada de blog titulada "Ataques adversarios a los LLM", en la que se clasificaban los tipos de ataques adversarios contra los LLM y se introducían brevemente algunos métodos de defensa.

Fuente original: Heart of the Machine

Fuente de la imagen: Generado por Unbounded AI

Con el lanzamiento de ChatGPT, las aplicaciones de modelos de lenguaje de gran tamaño se están acelerando a gran escala. El equipo de sistemas de seguridad de OpenAI ha invertido importantes recursos en la investigación de cómo crear comportamientos de seguridad predeterminados para los modelos durante la alineación. Sin embargo, todavía es posible que un ataque adversario o un jailbreak hagan que el resultado del modelo sea algo que no esperamos ver.

En la actualidad, gran parte de la investigación sobre los ataques adversarios se centra en las imágenes, es decir, en espacios continuos de alta dimensión. En el caso de datos discretos, como el texto, generalmente se acepta que el ataque será mucho más difícil debido a la falta de señales de gradiente. Lilian Weng ha escrito anteriormente un artículo sobre este tema, Controllable Text Generation. En pocas palabras: atacar un LLM es esencialmente controlar el contenido (inseguro) de un elemento de clase en particular que genera el modelo.

Dirección del artículo:

Otra rama de la investigación que ataca a los LLM es extraer datos previamente entrenados, conocimiento privado o atacar el proceso de entrenamiento del modelo envenenando los datos. Pero ese no es el tema de este artículo.

Modelo de Amenazas de Conocimiento Básico

Un ataque adversario es una entrada que engaña al modelo para que genere algo que no esperamos. Si bien gran parte de la investigación anterior se centró en tareas de clasificación, el trabajo más reciente ha comenzado a centrarse más en el resultado de los modelos generativos. En este artículo se trata de modelos de lenguaje de gran tamaño y se supone que el ataque solo se produce en la fase de inferencia, lo que significa que los pesos del modelo son fijos.

Figura 1: Perfil de amenazas para aplicaciones de LLM

Clasificar

En el pasado, la comunidad investigadora ha estado más preocupada por los ataques antagónicos a los clasificadores, y muchos en el campo de las imágenes. Los LLM también se pueden utilizar para la clasificación. Dada una entrada x y un clasificador f(.) , queremos encontrar una versión adversaria matizada de la entrada x_adv tal que f(x) ≠f(x_adv).

Generación de texto

Dada una entrada x y un modelo generativo p(.) , el modelo puede generar una muestra y~p(.|𝐱)。 El ataque adversario aquí es encontrar un p(x) para que y viole los comportamientos de seguridad integrados del modelo, como la salida de contenido no seguro sobre temas ilegales, la filtración de información privada o los datos de entrenamiento del modelo. No es fácil juzgar el éxito de un ataque para una tarea de compilación, que requiere un clasificador de ultra alta calidad para determinar si y es seguro o requiere escrutinio humano.

Caja Blanca vs. Caja Negra

Los ataques de caja blanca asumen que el atacante tiene acceso completo a los pesos del modelo, la arquitectura y los flujos de trabajo de entrenamiento, de modo que el atacante puede obtener señales de gradiente. No estamos asumiendo que un atacante tendrá acceso a todos los datos de entrenamiento. Esto solo se aplica al modelo de código abierto. Los ataques de caja negra asumen que un atacante solo puede acceder a servicios de tipo API: un atacante puede proporcionar la entrada x y obtener una muestra y de los comentarios sin saber más sobre el modelo.

Tipos de ataques adversarios

Hay varias formas diferentes de ayudar a un atacante a encontrar entradas adversarias que pueden engañar a los LLM para que generen contenido no seguro. Aquí hay cinco formas de hacerlo.

token 操作

Dada una entrada de texto que contiene una secuencia de tokens, podemos usar una operación de token simple (por ejemplo, reemplazarlo con sinónimos) para engañar al modelo para que haga una predicción falsa. Los ataques basados en tokens son ataques de caja negra. En el marco de Python, el artículo de Morris et al. de 2020 "TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP" implementa una serie de métodos de ataque de manipulación de palabras y tokens que se pueden utilizar para crear muestras adversarias para modelos de NLP. Gran parte del trabajo de investigación en esta área experimenta con la clasificación y la predicción de la implicación.

Por ejemplo, el estudio de Ribeiro et al. (2018) "Semantically Equivalent Adversarial Rules for Debugging NLP models" se basa en "Semantic Equivalence Adversarial Rules (SEAR)" propuestas artificialmente, que pueden evitar que el modelo genere la respuesta correcta con la menor cantidad de operaciones de token posible. Por ejemplo, las reglas incluyen reemplazar What por Which y was with is. Además, existen otros métodos propuestos por otros investigadores, como la sustitución de palabras clave y la sustitución de sinónimos.

Ataques basados en gradientes

En el caso de un ataque de caja blanca, el atacante puede obtener todos los parámetros y arquitecturas del modelo. Como resultado, los atacantes pueden confiar en el descenso de gradiente para aprender mediante programación los vectores de ataque más efectivos. Los ataques basados en gradientes solo funcionan en entornos de caja blanca, como los LLM de código abierto.

Los ataques adversarios basados en gradientes contra transformadores de texto propuestos por Guo et al. (2021) utilizan la técnica de aproximación de Gumbel-Softmax para optimizar la diferenciabilidad de las pérdidas adversarias, y también utilizan BERTScore y perplejidad para mejorar la perceptibilidad y la fluidez.

Sin embargo, el truco Gumbel-softmax no es escalable para la eliminación o adición de tokens, sino que está limitado por la sustitución de tokens.

Ebrahimi et al. (2018) en el artículo "HotFlip: White-Box Adversarial Examples for Text Classification" tratan las operaciones de texto como entradas en un espacio vectorial y miden las derivadas perdidas en estos vectores. HotFlip se puede extender para la eliminación o adición de tokens.

El artículo de Wallace et al. (2019) "Universal Adversarial Triggers for Attack and Analyzing NLP" propone un método para realizar una búsqueda guiada por gradiente en un token para encontrar una secuencia corta que induzca al modelo a generar una predicción específica, que se denomina Universal Adversarial Triggers (UAT, Disparador Universal Adversarial). UAT es independiente de la entrada, lo que significa que estos desencadenadores se pueden conectar como un prefijo (o sufijo) a cualquier entrada del conjunto de datos.

Shin et al., 2020's Auto: Eliciting Knowledge from Language Models with Automatically Generated s utiliza la misma estrategia de búsqueda basada en gradientes para encontrar las plantillas más efectivas para diversas tareas.

El método de búsqueda de tokens anterior se puede mejorar con la búsqueda de haz. Al buscar la incrustación óptima de tokens, puede elegir los k mejores candidatos en lugar de uno solo, buscar de izquierda a derecha en el lote de datos actual y puntuar cada viga en función de L_adv.

Figura 4: Diagrama de cómo funciona UAT

La pérdida de la UAT L_adv debe diseñarse para la tarea específica. La clasificación o comprensión lectora se basa en la entropía cruzada.

Figura 5: Ejemplos de UAT para diferentes tipos de tareas lingüísticas

¿Por qué funciona UAT? Es una pregunta interesante. Dado que UAT es independiente de la entrada y se puede transferir entre modelos con diferentes incrustaciones, esquemas de tokenización y arquitecturas, es posible que puedan hacer un uso eficaz del sesgo en los datos de entrenamiento que ya están integrados en el comportamiento global del modelo.

El uso de ataques UAT tiene una desventaja: es fácil de detectar. La razón de esto es que los desencadenantes aprendidos a menudo no tienen sentido. Mehrabi et al. (2022) examinaron dos variantes de UAT en el artículo Agentes conversacionales robustos contra desencadenantes de toxicidad imperceptibles, que hacen que los desencadenantes aprendidos sean imperceptibles en el contexto de una conversación de varias rondas. El objetivo es crear un mensaje ofensivo que desencadene eficazmente una respuesta tóxica en una conversación determinada, al tiempo que garantiza que el ataque sea fluido, coherente y consistente a lo largo de la conversación.

这两种变体分别是 UAT-LM(Universal Adversarial Trigger with Language Model Loss)和 UTSC(Unigram Trigger with Selection Criteria)。

Figura 6: Diagrama de cómo funciona UTSC

UAT-LM y UTSC-1 funcionan a la par con los puntos de referencia de UAT, pero las frases de ataque de UAT son sorprendentemente confusas y mucho más altas que UAT-LM y UTSC-1. La alta confusión hace que los ataques sean más fáciles de detectar y mitigar. Según las evaluaciones humanas, los ataques UTSC-1 producen resultados más consistentes, fluidos y relevantes que otros métodos de ataque.

*Figura 7: Tasa de éxito de los ataques medida por diferentes clasificadores de toxicidad en función de la respuesta del modelo de defensa al ataque generado. *

El artículo de Zou et al. (2023) "Agentes conversacionales robustos contra desencadenantes de toxicidad imperceptible" también examina el caso de conectar un token de activación adversario genérico como sufijo a una solicitud de entrada. Analizaron específicamente las solicitudes maliciosas a los LLM, a las que el modelo debería negarse a responder. De hecho, rechazar categorías de contenido que no están permitidas, como las sugerencias delictivas, es una importante medida de seguridad integrada en GPT-4. El objetivo contradictorio aquí es inducir al LLM a emitir una respuesta positiva incluso cuando debería rechazar la respuesta. Esto significa que cuando se recibe una solicitud maliciosa, el modelo responde así: "Por supuesto, tienes que hacer esto...", y la respuesta positiva esperada también se configura para duplicar algunos usuarios, a fin de evitar simplemente cambiar el sufijo del tema para optimizar la respuesta "por supuesto". La función de pérdida es tan simple como NLL (probabilidad logarítmica negativa) de la respuesta del objetivo de salida.

*Figura 8: Ilustración de dónde se introduce el disparador adversario. El signo de exclamación rojo representa la ficha adversa que se debe aprender. *

Experimentaron en dos modelos diferentes, Vicuña-7b y Vicuña-13b, utilizando una búsqueda basada en gradiente de coordenadas codiciosas (GCG) para encontrar con avidez un candidato para que el candidato pudiera minimizar las pérdidas en todas las posibles sustituciones de tokens individuales.

Aunque sus secuencias de ataque se entrenaron completamente en modelos de código abierto, fueron sorprendentemente portátiles a otros modelos comerciales, lo que sugiere que los ataques de caja blanca en modelos de código abierto también pueden ser efectivos contra modelos propietarios, especialmente cuando hay superposición de datos de entrenamiento de bajo nivel. Tenga en cuenta que el entrenamiento de Vicuña utiliza datos recopilados de GPT-3.5-turbo (a través de shareGPT), que es de naturaleza destilada, por lo que este ataque se parece más a un ataque de caja blanca.

*Figura 9: Tasa media de éxito de los ataques en las instrucciones HB (Comportamiento Dañino), que es un resultado medio de más de 5 veces. *

El Aumento Autorregresivo de Coordenadas Aleatorias (ARCA) propuesto por Jones et al. (2023) considera un conjunto más amplio de problemas de optimización para encontrar pares de entrada-salida (x, y) que se ajusten a un patrón específico de comportamiento, como una entrada no tóxica que comienza con "Barack Obama" pero da como resultado una salida tóxica. Dado un objetivo de auditoría: φ : X×Y→R, que asigna un par (entrada, finalización de salida) a una puntuación.

*Figura 10: Tasa media de éxito de engañar a GPT-2 y GPT-J para que produzcan resultados tóxicos. Línea gruesa: toda la salida de CivilComments; línea punteada: salida tóxica de 1,2,3 tokens de CivilComments. *

Diseño de jailbreak

El jailbreak es un intento antagónico de engañar a los LLM para que emitan contenido dañino que debe evitarse. El jailbreak es un ataque de caja negra, por lo que las combinaciones léxicas se basan en la heurística y la exploración humana. El artículo de Wei et al. (2023) "Jailbreak: How Does LLM Safety Training Fail?" propone dos modos de fallo para la seguridad de LLM, que pueden utilizarse para guiar el diseño de ataques de jailbreak.

1. Objetivos contrapuestos: Esto es cuando las capacidades del modelo (por ejemplo, "siempre debe seguir órdenes") entran en conflicto con los objetivos de seguridad. Algunos ejemplos de ataques de jailbreak que explotan objetivos de la competencia son:

  • Inyección de prefijo: Requiere que el modelo comience con una declaración de confirmación afirmativa.
  • Supresión de rechazo: Proporcione instrucciones detalladas al modelo para que no responda en un formato rechazado.
  • Inyección de estilo: Requiere que la modelo no use palabras largas, por lo que la modelo no puede escribir profesionalmente para dar un descargo de responsabilidad o explicar el motivo del rechazo.
  • Otros: Juegos de rol como DAN (ahora puede hacer cualquier cosa), AIM (siempre inteligente y sin escrúpulos), etc.

2. Generalización del desajuste: Se refiere a la incapacidad de la capacitación en seguridad para generalizarse a las áreas en las que es capaz. Esto ocurre cuando la entrada está fuera de la distribución segura de datos de entrenamiento (OOD) del modelo, pero dentro del ámbito de su amplio corpus previamente entrenado. Algunos ejemplos son:

  • Codificación especial: Utilice la codificación Base64 para construir entradas adversarias.
  • Transformaciones de caracteres: cifrado ROT13, escritura marciana o remanente cerebral (reemplazando letras con números y símbolos visualmente similares), código Morse
  • Conversiones de palabras: Pig Latin (reemplazando palabras sensibles con sinónimos, por ejemplo, "robando" por "robar"), división de carga (el llamado contrabando de tokens, que divide palabras sensibles en subcadenas)
  • Confusión de nivel: La traducción a otros idiomas requiere que el modelo esté ofuscado de manera que pueda entenderlo

Wei et al. (2023) experimentan con un gran número de métodos de jailbreak, incluidas las estrategias combinatorias construidas a partir de los principios anteriores.

  • combination_1 combina la inyección de prefijos, la supresión de denegación y los ataques Base64.
  • La combinación_2 agrega inyección de estilo.
  • combination_3 agrega restricciones en la generación de contenido y formato del sitio.

Figura 11: Tipos de trucos de jailbreak y su tasa de éxito en el ataque al modelo

El artículo de Greshake et al. (2023) "Not what you've signed for: Comcompromise Real-World LLM-Integrated Applications with Indirect Injection" analiza los ataques de inyección a un alto nivel. Argumenta que incluso cuando un ataque no proporciona un método detallado y solo proporciona un objetivo, es posible que el modelo lo implemente automáticamente. Cuando un modelo tiene acceso a API y herramientas externas, el acceso a más información, incluso información patentada, puede conducir a un mayor riesgo de ataques de phishing y ataques de espionaje.

Estrategia de Equipo RED con Participación Humana

Wallace et al. (2019) propusieron la generación de adversarios con participación humana en el artículo "Trick Me If You Can: Human-in-the-loop Generation of Adversarial Examples for Question Answering", con el objetivo de construir herramientas para guiar a los humanos a desglosar modelos.

Experimentaron con el conjunto de datos de control de calidad de QuizBowl y diseñaron una interfaz de escritura adversaria que permitiría a los humanos escribir preguntas similares a las del programa de concursos de televisión Jeopardy y usarlas para inducir al modelo a hacer predicciones falsas. Dependiendo del grado de importancia, cada palabra estará codificada por colores (es decir, la probabilidad predicha del modelo cambiará cuando se elimine la palabra). La importancia de las palabras se aproxima mediante el gradiente del modelo basado en incrustaciones de palabras.

* Figura 12: Interfaz de escritura adversarial, donde la parte superior izquierda son las primeras cinco predicciones del modelo enumerado, y la parte inferior derecha es la pregunta del usuario, donde la importancia de la palabra está codificada por colores. *

En un experimento, lo que los entrenadores humanos tuvieron que hacer fue encontrar casos en los que un clasificador seguro no pudo clasificar el contenido violento. Ziegler et al. (2022) crearon una herramienta en el artículo "Adversarial Training for High-Stakes Reliability" que se puede utilizar para ayudar a los adversarios humanos a encontrar la condición de falla de un clasificador y eliminarla de manera más rápida y eficiente. Las reescrituras asistidas por herramientas son más rápidas que las reescrituras manuales completas, lo que reduce el tiempo necesario por muestra de 20 minutos a 13 minutos. Para ser precisos, introdujeron dos características para ayudar a los escritores humanos: mostrar la puntuación de significación de cada token, la sustitución de tokens y la inserción.

*Figura 13: Interfaz de usuario con herramientas para ayudar a los humanos en ataques adversarios a los clasificadores. Lo que los humanos tienen que hacer es editar o completar para reducir la probabilidad de que el modelo prediga que la entrada es violenta. *

Xu et al. (2021) "Diálogo Bot-Adversarial para Agentes Conversacionales Seguros" propone el Diálogo Bot-Adversarial (BAD), un marco que puede llevar a los humanos a engañar a los modelos para que cometan errores (por ejemplo, generar contenido inseguro). Recopilaron más de 5.000 conjuntos de conversaciones entre modelos y trabajadores de crowdsourcing. Cada conjunto de conversaciones constaba de 14 rondas, y luego puntuaron el modelo en función del número de rondas de conversaciones inseguras. Terminaron con un conjunto de datos BAD de aproximadamente 2500 conjuntos de conversaciones con etiquetas ofensivas.

El conjunto de datos del equipo rojo de Antropic contiene casi 40.000 ataques adversarios recopilados de conversaciones entre miembros humanos del equipo rojo y LLM. Descubrieron que cuanto mayor era el tamaño del RLHF, más difícil era atacarlo. Los grandes modelos lanzados por OpenAI, como GPT-4 y DALL-E 3, suelen utilizar equipos rojos expertos humanos para la preparación de la seguridad.

Dirección del conjunto de datos:

Modelo de estrategia de equipo rojo

La estrategia del equipo rojo humano es poderosa, pero es difícil de implementar a escala y puede requerir una gran cantidad de profesionales capacitados. Ahora imaginemos que podemos aprender un modelo de equipo rojo, rojo, para confrontar el LLM objetivo para activarlo para dar una respuesta insegura. Para las estrategias de equipo rojo basadas en modelos, el principal desafío es cómo determinar si un ataque es exitoso o no, y solo sabiendo esto podemos construir señales de aprendizaje adecuadas para entrenar el modelo de equipo rojo.

Suponiendo que ya tenemos un clasificador de alta calidad que puede decir si la salida del modelo es dañina, podemos usarla como recompensa para entrenar al modelo de equipo rojo para obtener información que maximice la puntuación del clasificador en la salida del modelo de destino. Sea r (x, y) uno de esos clasificadores de equipo rojo que puede determinar si la salida y es dañina dada una entrada de prueba x. Según el artículo "Red Teaming Language Models with Language Models" de Pérez et al. (2022), la búsqueda de muestras de ataques adversarios sigue un sencillo proceso de tres pasos:

  1. Entradas de prueba de muestra de un equipo rojo LLM x~p_red (.);
  2. Genere una salida y para cada caso de prueba x utilizando el LLM de destino p (y | x);
  3. De acuerdo con el clasificador r (x, y), encuentre un subconjunto del caso de prueba que obtendrá una salida dañina.

Experimentaron con varios métodos para muestrear del modelo del equipo rojo o entrenar aún más el modelo del equipo rojo para hacerlo más eficiente, incluida la generación de disparos cero, la generación aleatoria de pocos disparos, el aprendizaje supervisado y el aprendizaje por refuerzo.

El artículo de Casper et al. (2023) "Explore, Esttablish, Exploit: Red Teaming Language Models from Scratch" diseña un proceso de equipo rojo con participación humana. La principal diferencia con Pérez et al. (2022) es que establece explícitamente una etapa de muestreo de datos para el modelo objetivo, de modo que se puedan recopilar etiquetas humanas para entrenar un clasificador de equipo rojo específico de la tarea. Consta de tres fases: Explorar, Establecer y Explotar, como se muestra en la siguiente figura.

Figura 15: Proceso de estrategia del equipo rojo con un enfoque de tres pasos: explorar-construir-explotar

El artículo de Mehrabi et al. 2023, "FLIRT: Feedback Loop In-context Red Teaming", se basa en el aprendizaje contextual del equipo rojo LM p_red para atacar el modelo de generación de imágenes o texto p y hacer que genere contenido inseguro.

En cada iteración de FLIRT:

  1. El equipo rojo LM p_red genera un adversario x~p_red (. | ejemplos), donde las muestras de contexto iniciales son diseñadas por humanos;
  2. Genere el modelo p basado en esto Genere una salida de imagen o texto y;
  3. Utilizar mecanismos como clasificadores para evaluar el contenido generado y ver si es seguro;
  4. Si se considera que y no es seguro, use el desencadenador x para actualizar la plantilla de contexto de p_red de modo que genere un nuevo adversario basado en la política.

Hay varias estrategias para actualizar las plantillas de contexto de FLIRT: FIFO, LIFO, Scoring y Scoring-LIFO. Consulte el documento original para obtener más detalles.

*Figura 16: Efectividad del ataque (porcentaje de generación que desencadenó un resultado inseguro) para diferentes estrategias de ataque en diferentes modelos de propagación. El punto de referencia es SFS (Random Minimal Sample). Los valores entre paréntesis son porcentajes únicos. *

Cómo lidiar con el problema de atacar los puntos de la silla de montar

Madry et al. (2017), "Towards Deep Learning Models Resistant to Adversarial Attacks", propone un buen marco para la robustez adversarial, que se modela como un problema de punto de silla, que se convierte en un problema de optimización robusta. El marco se propone para la entrada continua a las tareas de clasificación, pero describe el proceso de optimización de dos capas con fórmulas matemáticas bastante concisas, por lo que vale la pena compartirlo.

Consideremos una tarea de clasificación basada en una distribución de datos que consta de pares (muestras, etiquetas), (x,y)∈D, y el objetivo de entrenar un clasificador robusto es un problema de punto de silla:

donde S⊆R^d se refiere a un conjunto de perturbaciones que se pueden usar con fines adversos, como por ejemplo si queremos que la versión adversaria de una imagen se parezca a la original.

Su objetivo consiste en un problema de maximización interna y un problema de minimización externa:

  • Maximización interna: Busque los puntos de datos adversarios más efectivos x+δ que pueden resultar en grandes pérdidas. Todos los métodos de ataque adversarios se reducen, en última instancia, a cómo maximizar la pérdida de este proceso interno.
  • Minimización externa: Encontrar el mejor esquema de parametrización del modelo para que se pueda minimizar la pérdida del ataque más efectivo encontrado por el proceso de maximización interna. Una manera fácil de entrenar un modelo robusto es reemplazar cada punto de datos con sus versiones de perturbación, que pueden ser varias variantes adversarias de un solo punto de datos.

*Figura 17: También encontraron que la robustez frente a los ataques de adversarios requiere un mayor poder del modelo, ya que complica los límites de decisión. Curiosamente, en ausencia de aumento de datos, los modelos más grandes ayudan a mejorar la solidez del modelo. *

Algunos trabajos de investigación sobre la robustez del LLM

A continuación, se presenta un breve vistazo a algunas de las investigaciones sobre la solidez de los LLM.

El artículo de Xie et al. de 2023, "Defending ChatGPT against Jailbreak Attack via Self-Reminder", encontró una forma sencilla e intuitiva de proteger un modelo de los ataques de los adversarios: instruir explícitamente al modelo para que sea responsable y no genere contenido dañino. Esto reduce en gran medida la tasa de éxito de los ataques de jailbreak, pero tiene un efecto secundario en la calidad de la generación del modelo, ya que tales instrucciones pueden hacer que el modelo sea conservador (por ejemplo, malo para la escritura creativa) o malinterpretar las instrucciones en algunos casos (por ejemplo, en el caso de la clasificación seguro-inseguro).

Para reducir el riesgo de ataques adversarios, el método más común es entrenar un modelo con estas muestras de ataques, lo que se conoce como "entrenamiento adversario". Esta se considera la defensa más fuerte, pero requiere un equilibrio entre la robustez y el rendimiento del modelo. Jain et al. 2023 probaron experimentalmente dos configuraciones de entrenamiento de adversarios, y los resultados se informaron en el artículo "Defensas de referencia para ataques adversarios contra modelos de lenguaje alineados": (1) el uso de dañino y el uso de "Lo siento. (2) Para cada paso de entrenamiento, ejecute un paso descendente en la respuesta de rechazo y un paso ascendente en la respuesta deficiente de un equipo rojo. Eventualmente, descubrieron que el método (2) era inútil porque la calidad del modelo era mucho menor y la tasa de éxito del ataque era solo una pequeña disminución.

Los ataques de caja blanca a menudo resultan en confrontaciones que parecen inútiles y, por lo tanto, pueden detectarse por confusión. Por supuesto, al reducir la confusión mediante la optimización explícita, los ataques de caja blanca pueden eludir directamente este método de detección, como UAT-LM, una variante de UT. Sin embargo, esto también puede conducir a una disminución en la tasa de éxito del ataque.

Figura 18: Los filtros de confusión pueden bloquear los ataques de [Zou et al. (2023)]. PPL Passed y PPL Window Passed se refieren a la velocidad a la que los filtros dañinos con un sufijo adverso omiten los filtros de derivación. Cuanto menor sea la tasa de aprobación, mejor será el filtro. Dirección:

Jain et al. 2023 también prueban métodos para preprocesar la entrada de texto, de modo que las modificaciones adversarias puedan eliminarse manteniendo el significado semántico.

  • Interpretar el significado: Utilice los LLM para interpretar el significado del texto de entrada, lo que puede tener un pequeño impacto en el rendimiento de las tareas posteriores.
  • Retokenización: Divida los tokens y represéntelos con varios tokens más pequeños, como BPE-dropout (dejar caer aleatoriamente un cierto porcentaje de tokens). La suposición que utiliza este enfoque es que es probable que adversarial aproveche una combinación específica de tokens adversarios. Esto ayuda a reducir la tasa de éxito del ataque, pero es limitada, por ejemplo, de más del 90% al 40%.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)