Sabemos que el éxito de ChatGPT es inseparable del "arma secreta" de RLHF. Sin embargo, RLHF no es impecable y hay desafíos de optimización difíciles de tratar. En este artículo, un equipo de la Universidad de Stanford y otras instituciones de investigación explora la sustitución del "aprendizaje por refuerzo" por el "aprendizaje preferido por contraste", que tiene un buen rendimiento en términos de velocidad y rendimiento.
Fuente de la imagen: Generado por Unbounded AI
El aprendizaje por refuerzo basado en la retroalimentación humana (RLHF, por sus siglas en inglés) se ha convertido en un paradigma popular en términos de alinear los modelos con las intenciones humanas. Normalmente, los algoritmos RLHF funcionan en dos fases: en primer lugar, el aprendizaje de una función de recompensa utilizando las preferencias humanas y, en segundo lugar, la alineación del modelo mediante la optimización de la recompensa aprendida mediante el aprendizaje por refuerzo.
El paradigma RLHF asume que la distribución de las preferencias humanas sigue a la recompensa, pero estudios recientes sugieren que este no es el caso, y que las preferencias humanas en realidad siguen el valor de arrepentimiento de la estrategia óptima del usuario. Por lo tanto, el aprendizaje de funciones de recompensa basadas en la retroalimentación no solo se basa en una suposición errónea sobre las preferencias humanas, sino que también conduce a acertijos de optimización intratables que provienen de gradientes de políticas o bootstrapping en el aprendizaje por refuerzo.
Debido a estos desafíos de optimización, los métodos RLHF actuales se limitan a configuraciones de bandidos basadas en el contexto (por ejemplo, en modelos de lenguaje grandes) o a sus propias dimensiones de observación (por ejemplo, robótica basada en estados).
Para superar estos desafíos, un equipo de investigadores de Stanford y otras universidades ha propuesto una serie de nuevos algoritmos que pueden usar un modelo de preferencia humana basado en el arrepentimiento para optimizar el comportamiento cuando se usa la retroalimentación humana, en lugar de un modelo parcialmente gratificante que es ampliamente aceptado por la comunidad y solo considera la suma de recompensas. A diferencia de los modelos de retorno parcial, los modelos basados en el arrepentimiento proporcionan información directa sobre la estrategia óptima.
Este mecanismo ha dado lugar a un resultado afortunado: ¡el aprendizaje por refuerzo ya no es necesario!
De esta manera, los problemas de RLHF se pueden resolver en un marco MDP de propósito general con estados y espacios de acción de alta dimensión.
Los investigadores propusieron que la idea central de los resultados de su investigación es que la combinación del marco de preferencia basado en el arrepentimiento con el principio de máxima entropía (MaxEnt) puede obtener una biyección entre la función dominante y la estrategia. Al reemplazar la optimización de la ventaja con la optimización de la estrategia, se puede derivar un objetivo de aprendizaje supervisado puro, y su valor óptimo es la estrategia óptima bajo la recompensa del experto. El equipo llamó al enfoque Aprendizaje de Preferencia Contrastiva (CPL, por sus siglas en inglés) porque se asemeja al objetivo ampliamente aceptado del aprendizaje contrastivo.
*Dirección:
Dirección del código:
CPL tiene tres ventajas clave sobre los enfoques anteriores.
En primer lugar, el CPL se escala como el aprendizaje supervisado porque utiliza solo objetivos supervisados para que coincidan con las fortalezas óptimas sin utilizar gradientes estratégicos ni programación dinámica.
En segundo lugar, CPL es un enfoque completamente fuera de la política, por lo que puede utilizar eficazmente cualquier fuente de datos subóptima fuera de línea.
En tercer lugar, CPL se puede aplicar a cualquier proceso de decisión de Markov (MDP) para que pueda aprender de las consultas de preferencias en los datos de secuencia.
Según el equipo, ninguno de los métodos anteriores de RLHF cumplía con estos tres criterios. Con el fin de demostrar que el método CPL se ajusta a las tres descripciones anteriores, los investigadores realizaron experimentos, y los resultados muestran que el método puede tratar eficazmente el problema de la toma de decisiones secuencial con datos de estrategia de disociación subóptimos y de alta disociación.
En particular, descubrieron que CPL era capaz de aprender eficazmente estrategias operativas que se escalan con el tiempo utilizando el mismo proceso de ajuste fino de RLHF que el modelo conversacional en el punto de referencia MetaWorld.
Específicamente, utilizan un enfoque de aprendizaje supervisado para entrenar previamente estrategias sobre la observación de imágenes de alta dimensión y luego ajustarlas utilizando preferencias. Sin necesidad de programación dinámica o gradientes de políticas, CPL puede lograr el mismo rendimiento que el enfoque basado en el aprendizaje por refuerzo a priori. Al mismo tiempo, el método CPL es 1,6 veces más rápido y la eficiencia de los parámetros es cuatro veces más rápida. Cuando se utilizaron datos de preferencias más intensivos, el rendimiento de CPL superó al aprendizaje por refuerzo en 5 de las 6 tareas.
Aprendizaje de Preferencias Contrastivas
La idea central de este enfoque es simple: los investigadores encontraron que cuando se utiliza un marco de aprendizaje por refuerzo de máxima entropía, la función de dominancia utilizada en el modelo de preferencia de arrepentimiento se puede reemplazar fácilmente con la probabilidad logarítmica de la estrategia. Sin embargo, este simple reemplazo puede traer grandes beneficios. Si utiliza la probabilidad logarítmica de la estrategia, no necesita aprender la función de ventaja ni lidiar con los problemas de optimización asociados con los algoritmos de aprendizaje tipo refuerzo.
Esto no solo crea un modelo de preferencia de arrepentimiento más estrechamente alineado, dicen los investigadores, sino que también puede confiar completamente en el aprendizaje supervisado para aprender de la retroalimentación humana.
Primero se deriva el objetivo CPL y se muestra que para la función de recompensa del usuario experto r_E con datos ilimitados, el método converge a la estrategia óptima. A continuación, se explicará la relación entre el CPL y otros métodos de aprendizaje supervisado. Por último, el investigador explicará cómo se puede utilizar el CPL en la práctica. Dicen que estos algoritmos pertenecen a una nueva categoría de métodos para resolver problemas secuenciales de toma de decisiones, que son altamente eficientes porque pueden aprender estrategias directamente de las preferencias basadas en el arrepentimiento sin necesidad de aprendizaje por refuerzo.
De la ventaja óptima a la estrategia óptima
Cuando se utiliza el modelo de preferencia de arrepentimiento, el conjunto de datos de preferencias D_pref contiene información sobre la función de dominancia óptima A^∗ (s, a). Podemos pensar intuitivamente que esta función mide qué tan malo es a para una acción dada que la acción generada por la estrategia óptima en el estado s.
Por lo tanto, por definición, la acción que maximiza la ventaja óptima es la acción óptima, y aprender la función de ventaja óptima a partir de la preferencia debería permitir extraer intuitivamente la estrategia óptima.
En concreto, el equipo demostró el siguiente teorema:
Beneficios de las estrategias de aprendizaje directo: Son muchos los beneficios prácticos y teóricos de aprender π directamente de esta manera. La más obvia de ellas puede ser que si aprendes la estrategia directamente, no necesitas aprender ninguna otra función, como la función de recompensa o la función de valor. Esto hace que CPL sea mucho más simple que el método anterior.
Conexiones con el aprendizaje contrastivo. El enfoque CPL utiliza directamente un objetivo de comparación para el aprendizaje de estrategias. Los investigadores dicen que esperan que CPL escale mejor que los métodos de aprendizaje por refuerzo que utilizan algoritmos tradicionales de aprendizaje por refuerzo, dado el éxito comprobado de los objetivos de aprendizaje contrastivos con grandes conjuntos de datos y redes neuronales.
Consideraciones prácticas
El marco de aprendizaje de preferencias contrastivas proporciona una función de pérdida genérica que se puede utilizar para aprender estrategias a partir de preferencias basadas en la fortaleza, de las que se pueden derivar muchos algoritmos. El siguiente es un ejemplo práctico de un marco CPL específico que funciona bien.
CPL con datos fuera de línea limitados. Aunque CPL puede converger a una estrategia óptima con datos de preferencias ilimitados, en la práctica generalmente nos preocupa aprender de un conjunto de datos fuera de línea limitado. En esta configuración, las políticas que se extrapolan demasiado allá de la compatibilidad del conjunto de datos tienen un rendimiento deficiente porque las acciones que realizan dan como resultado un estado fuera de distribución.
Regularización. En un entorno finito, queremos elegir una estrategia que minimice la función de pérdida de CPL y, al mismo tiempo, otorgue una mayor probabilidad a las acciones de ese conjunto de datos. Para ello, el investigador utiliza un regularizador conservador para obtener la siguiente función de pérdida: cuando la estrategia tiene una mayor probabilidad de una acción en D_pref, se asigna una menor pérdida, asegurando así que está dentro de la distribución.
Pre-entrenamiento. El equipo descubrió que la política π_θ se entrenó previamente utilizando el enfoque de clonación de comportamiento (BC) para obtener mejores resultados. Por lo tanto, antes de ajustar las preferencias de uso de pérdida de CPL, el equipo utilizó el objetivo de clonación de máxima verosimilitud estándar para entrenar la estrategia, a saber:
Experimentos y resultados
Esta sección responderá a las siguientes preguntas sobre CPL: 1. ¿Puede CPL ajustar eficazmente las políticas basadas en las preferencias basadas en el arrepentimiento?2. ¿Se puede escalar CPL para problemas de control de alta dimensión y redes más grandes?3. ¿Qué componentes de CPL son importantes para lograr un alto rendimiento?
Datos de preferencias. Utilizando datos y preferencias de implementación disociativa subóptimas, los investigadores evaluaron la capacidad de CPL para aprender estrategias para el MDP genérico.
Metodología de referencia. En el experimento se consideraron tres métodos de referencia: ajuste fino supervisado (SFT), aprendizaje implícito de preferencia Q (P-IQL), % BC (entrenamiento de una política mediante clonación conductual del X% superior de la implementación).
¿Cómo se está desempeñando CPL?**
¿Cómo funciona CPL cuando se utilizan observaciones basadas en estados? En el caso de los resultados experimentales basados en estados, las filas 1 y 3 de la Tabla 1 son principalmente visibles.
Cuando se utilizaron datos comparativos más dispersos (fila 3), CPL superó al enfoque anterior en 5 de los 6 entornos, y las ventajas sobre P-IQL fueron en su mayoría claras, especialmente en los entornos de pulsación de botones, selección de contenedores y barrido de entrada. Cuando se aplica a conjuntos de datos con comparaciones más intensivas, el CPL es incluso más ventajoso que el P-IQL (fila 1) y es significativo en todos los contextos.
Para probar si el objetivo de supervisión de la CPL podría extenderse a problemas de control continuo de alta dimensión, el equipo representó el conjunto de datos MetaWorld en 64 × 64 imágenes.
Las filas 2 y 4 de la Tabla 1 muestran los resultados del experimento basado en imágenes. Obtuvieron un hallazgo interesante: para SFT, hubo un ligero aumento en el rendimiento, pero la mejora en P-IQL fue notable. Al conocer los datos de preferencias más intensivos (fila 2), CPL aún superó a P-IQL en 4 de los 6 entornos y comparable a ambos en Sweep In. Al obtener datos comparativos más dispersos (fila 4), CPL y P-IQL se desempeñaron por igual en la mayoría de las tareas.
Esto es aún más sorprendente si se tiene en cuenta que CPL tiene una complejidad significativamente menor. P-IQL debe aprender una función de recompensa, una función Q, una función de valor y una estrategia. CPL no requiere ninguno de ellos, solo necesita aprender una única estrategia, lo que reduce en gran medida el tiempo de entrenamiento y el número de parámetros.
Como se muestra en la Tabla 2 a continuación, CPL se ejecuta 1,62 veces más rápido que P-IQL en tareas de imagen y tiene menos de una cuarta parte del número de parámetros. A medida que la red crezca, las ganancias de rendimiento del uso de CPL solo aumentarán.
¿Qué componentes contribuyen al rendimiento de CPL?
Como se puede ver en los resultados experimentales, la brecha entre el CPL y el método de referencia es mayor cuando se utilizan conjuntos de datos con comparaciones más intensivas. Esto es consistente con los resultados de investigaciones previas sobre el aprendizaje contrastivo.
Para investigar este efecto, se evaluó el rendimiento de la CPL aumentando el número de comparaciones muestreadas por fragmento en función de un conjunto de datos de tamaño fijo de 5.000 fragmentos. En la figura 2 siguiente se muestran los resultados de la tarea Abrir cajón para observaciones basadas en estados.
En general, CPL se beneficia cuando aumenta el número de comparaciones muestreadas por clip, con la excepción de la tarea Diapositiva de placa.
Por último, el equipo también realizó un estudio de ablación de los hiperparámetros de CPL (valor de temperatura α y regularizador de sesgo λ), que también se basó en la tarea de cajón abierto, cuyos resultados se muestran en el lado derecho de la Figura 2. Si bien CPL funciona bien con estos valores, los experimentos han encontrado que puede funcionar aún mejor con un ajuste adecuado de los hiperparámetros, especialmente λ.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Stanford propone el aprendizaje de preferencia contrastiva: aprender de la retroalimentación humana sin aprendizaje por refuerzo
Fuente del artículo: Heart of the Machine
El aprendizaje por refuerzo basado en la retroalimentación humana (RLHF, por sus siglas en inglés) se ha convertido en un paradigma popular en términos de alinear los modelos con las intenciones humanas. Normalmente, los algoritmos RLHF funcionan en dos fases: en primer lugar, el aprendizaje de una función de recompensa utilizando las preferencias humanas y, en segundo lugar, la alineación del modelo mediante la optimización de la recompensa aprendida mediante el aprendizaje por refuerzo.
El paradigma RLHF asume que la distribución de las preferencias humanas sigue a la recompensa, pero estudios recientes sugieren que este no es el caso, y que las preferencias humanas en realidad siguen el valor de arrepentimiento de la estrategia óptima del usuario. Por lo tanto, el aprendizaje de funciones de recompensa basadas en la retroalimentación no solo se basa en una suposición errónea sobre las preferencias humanas, sino que también conduce a acertijos de optimización intratables que provienen de gradientes de políticas o bootstrapping en el aprendizaje por refuerzo.
Debido a estos desafíos de optimización, los métodos RLHF actuales se limitan a configuraciones de bandidos basadas en el contexto (por ejemplo, en modelos de lenguaje grandes) o a sus propias dimensiones de observación (por ejemplo, robótica basada en estados).
Para superar estos desafíos, un equipo de investigadores de Stanford y otras universidades ha propuesto una serie de nuevos algoritmos que pueden usar un modelo de preferencia humana basado en el arrepentimiento para optimizar el comportamiento cuando se usa la retroalimentación humana, en lugar de un modelo parcialmente gratificante que es ampliamente aceptado por la comunidad y solo considera la suma de recompensas. A diferencia de los modelos de retorno parcial, los modelos basados en el arrepentimiento proporcionan información directa sobre la estrategia óptima.
Este mecanismo ha dado lugar a un resultado afortunado: ¡el aprendizaje por refuerzo ya no es necesario!
De esta manera, los problemas de RLHF se pueden resolver en un marco MDP de propósito general con estados y espacios de acción de alta dimensión.
Los investigadores propusieron que la idea central de los resultados de su investigación es que la combinación del marco de preferencia basado en el arrepentimiento con el principio de máxima entropía (MaxEnt) puede obtener una biyección entre la función dominante y la estrategia. Al reemplazar la optimización de la ventaja con la optimización de la estrategia, se puede derivar un objetivo de aprendizaje supervisado puro, y su valor óptimo es la estrategia óptima bajo la recompensa del experto. El equipo llamó al enfoque Aprendizaje de Preferencia Contrastiva (CPL, por sus siglas en inglés) porque se asemeja al objetivo ampliamente aceptado del aprendizaje contrastivo.
CPL tiene tres ventajas clave sobre los enfoques anteriores.
En primer lugar, el CPL se escala como el aprendizaje supervisado porque utiliza solo objetivos supervisados para que coincidan con las fortalezas óptimas sin utilizar gradientes estratégicos ni programación dinámica.
En segundo lugar, CPL es un enfoque completamente fuera de la política, por lo que puede utilizar eficazmente cualquier fuente de datos subóptima fuera de línea.
En tercer lugar, CPL se puede aplicar a cualquier proceso de decisión de Markov (MDP) para que pueda aprender de las consultas de preferencias en los datos de secuencia.
Según el equipo, ninguno de los métodos anteriores de RLHF cumplía con estos tres criterios. Con el fin de demostrar que el método CPL se ajusta a las tres descripciones anteriores, los investigadores realizaron experimentos, y los resultados muestran que el método puede tratar eficazmente el problema de la toma de decisiones secuencial con datos de estrategia de disociación subóptimos y de alta disociación.
En particular, descubrieron que CPL era capaz de aprender eficazmente estrategias operativas que se escalan con el tiempo utilizando el mismo proceso de ajuste fino de RLHF que el modelo conversacional en el punto de referencia MetaWorld.
Específicamente, utilizan un enfoque de aprendizaje supervisado para entrenar previamente estrategias sobre la observación de imágenes de alta dimensión y luego ajustarlas utilizando preferencias. Sin necesidad de programación dinámica o gradientes de políticas, CPL puede lograr el mismo rendimiento que el enfoque basado en el aprendizaje por refuerzo a priori. Al mismo tiempo, el método CPL es 1,6 veces más rápido y la eficiencia de los parámetros es cuatro veces más rápida. Cuando se utilizaron datos de preferencias más intensivos, el rendimiento de CPL superó al aprendizaje por refuerzo en 5 de las 6 tareas.
Aprendizaje de Preferencias Contrastivas
La idea central de este enfoque es simple: los investigadores encontraron que cuando se utiliza un marco de aprendizaje por refuerzo de máxima entropía, la función de dominancia utilizada en el modelo de preferencia de arrepentimiento se puede reemplazar fácilmente con la probabilidad logarítmica de la estrategia. Sin embargo, este simple reemplazo puede traer grandes beneficios. Si utiliza la probabilidad logarítmica de la estrategia, no necesita aprender la función de ventaja ni lidiar con los problemas de optimización asociados con los algoritmos de aprendizaje tipo refuerzo.
Esto no solo crea un modelo de preferencia de arrepentimiento más estrechamente alineado, dicen los investigadores, sino que también puede confiar completamente en el aprendizaje supervisado para aprender de la retroalimentación humana.
Primero se deriva el objetivo CPL y se muestra que para la función de recompensa del usuario experto r_E con datos ilimitados, el método converge a la estrategia óptima. A continuación, se explicará la relación entre el CPL y otros métodos de aprendizaje supervisado. Por último, el investigador explicará cómo se puede utilizar el CPL en la práctica. Dicen que estos algoritmos pertenecen a una nueva categoría de métodos para resolver problemas secuenciales de toma de decisiones, que son altamente eficientes porque pueden aprender estrategias directamente de las preferencias basadas en el arrepentimiento sin necesidad de aprendizaje por refuerzo.
Cuando se utiliza el modelo de preferencia de arrepentimiento, el conjunto de datos de preferencias D_pref contiene información sobre la función de dominancia óptima A^∗ (s, a). Podemos pensar intuitivamente que esta función mide qué tan malo es a para una acción dada que la acción generada por la estrategia óptima en el estado s.
Por lo tanto, por definición, la acción que maximiza la ventaja óptima es la acción óptima, y aprender la función de ventaja óptima a partir de la preferencia debería permitir extraer intuitivamente la estrategia óptima.
En concreto, el equipo demostró el siguiente teorema:
Conexiones con el aprendizaje contrastivo. El enfoque CPL utiliza directamente un objetivo de comparación para el aprendizaje de estrategias. Los investigadores dicen que esperan que CPL escale mejor que los métodos de aprendizaje por refuerzo que utilizan algoritmos tradicionales de aprendizaje por refuerzo, dado el éxito comprobado de los objetivos de aprendizaje contrastivos con grandes conjuntos de datos y redes neuronales.
Consideraciones prácticas
El marco de aprendizaje de preferencias contrastivas proporciona una función de pérdida genérica que se puede utilizar para aprender estrategias a partir de preferencias basadas en la fortaleza, de las que se pueden derivar muchos algoritmos. El siguiente es un ejemplo práctico de un marco CPL específico que funciona bien.
CPL con datos fuera de línea limitados. Aunque CPL puede converger a una estrategia óptima con datos de preferencias ilimitados, en la práctica generalmente nos preocupa aprender de un conjunto de datos fuera de línea limitado. En esta configuración, las políticas que se extrapolan demasiado allá de la compatibilidad del conjunto de datos tienen un rendimiento deficiente porque las acciones que realizan dan como resultado un estado fuera de distribución.
Regularización. En un entorno finito, queremos elegir una estrategia que minimice la función de pérdida de CPL y, al mismo tiempo, otorgue una mayor probabilidad a las acciones de ese conjunto de datos. Para ello, el investigador utiliza un regularizador conservador para obtener la siguiente función de pérdida: cuando la estrategia tiene una mayor probabilidad de una acción en D_pref, se asigna una menor pérdida, asegurando así que está dentro de la distribución.
Experimentos y resultados
Esta sección responderá a las siguientes preguntas sobre CPL: 1. ¿Puede CPL ajustar eficazmente las políticas basadas en las preferencias basadas en el arrepentimiento?2. ¿Se puede escalar CPL para problemas de control de alta dimensión y redes más grandes?3. ¿Qué componentes de CPL son importantes para lograr un alto rendimiento?
Datos de preferencias. Utilizando datos y preferencias de implementación disociativa subóptimas, los investigadores evaluaron la capacidad de CPL para aprender estrategias para el MDP genérico.
Metodología de referencia. En el experimento se consideraron tres métodos de referencia: ajuste fino supervisado (SFT), aprendizaje implícito de preferencia Q (P-IQL), % BC (entrenamiento de una política mediante clonación conductual del X% superior de la implementación).
¿Cómo se está desempeñando CPL?**
¿Cómo funciona CPL cuando se utilizan observaciones basadas en estados? En el caso de los resultados experimentales basados en estados, las filas 1 y 3 de la Tabla 1 son principalmente visibles.
Cuando se utilizaron datos comparativos más dispersos (fila 3), CPL superó al enfoque anterior en 5 de los 6 entornos, y las ventajas sobre P-IQL fueron en su mayoría claras, especialmente en los entornos de pulsación de botones, selección de contenedores y barrido de entrada. Cuando se aplica a conjuntos de datos con comparaciones más intensivas, el CPL es incluso más ventajoso que el P-IQL (fila 1) y es significativo en todos los contextos.
Las filas 2 y 4 de la Tabla 1 muestran los resultados del experimento basado en imágenes. Obtuvieron un hallazgo interesante: para SFT, hubo un ligero aumento en el rendimiento, pero la mejora en P-IQL fue notable. Al conocer los datos de preferencias más intensivos (fila 2), CPL aún superó a P-IQL en 4 de los 6 entornos y comparable a ambos en Sweep In. Al obtener datos comparativos más dispersos (fila 4), CPL y P-IQL se desempeñaron por igual en la mayoría de las tareas.
Esto es aún más sorprendente si se tiene en cuenta que CPL tiene una complejidad significativamente menor. P-IQL debe aprender una función de recompensa, una función Q, una función de valor y una estrategia. CPL no requiere ninguno de ellos, solo necesita aprender una única estrategia, lo que reduce en gran medida el tiempo de entrenamiento y el número de parámetros.
Como se muestra en la Tabla 2 a continuación, CPL se ejecuta 1,62 veces más rápido que P-IQL en tareas de imagen y tiene menos de una cuarta parte del número de parámetros. A medida que la red crezca, las ganancias de rendimiento del uso de CPL solo aumentarán.
Como se puede ver en los resultados experimentales, la brecha entre el CPL y el método de referencia es mayor cuando se utilizan conjuntos de datos con comparaciones más intensivas. Esto es consistente con los resultados de investigaciones previas sobre el aprendizaje contrastivo.
Para investigar este efecto, se evaluó el rendimiento de la CPL aumentando el número de comparaciones muestreadas por fragmento en función de un conjunto de datos de tamaño fijo de 5.000 fragmentos. En la figura 2 siguiente se muestran los resultados de la tarea Abrir cajón para observaciones basadas en estados.
En general, CPL se beneficia cuando aumenta el número de comparaciones muestreadas por clip, con la excepción de la tarea Diapositiva de placa.