GPT-4 es mejor que tú para hacer preguntas: deja que el modelo grande lo vuelva a contar de forma autónoma, rompiendo las barreras para dialogar con los humanos

Fuente original: Heart of the Machine

Fuente de la imagen: Generado por Unbounded AI

En los últimos desarrollos en el campo de la inteligencia artificial, la calidad de las indicaciones generadas por humanos tiene un impacto decisivo en la precisión de la respuesta de los grandes modelos de lenguaje (LLM). Las recomendaciones de OpenAI establecen que las preguntas precisas, detalladas y específicas son fundamentales para el rendimiento de estos grandes modelos de lenguaje. Sin embargo, ¿podrá el usuario medio asegurarse de que su pregunta es lo suficientemente clara para el LLM?

Es importante tener en cuenta que existe una clara diferencia entre la capacidad natural de los humanos para comprender y la interpretación de las máquinas en determinadas situaciones. Por ejemplo, el concepto de "meses pares" puede parecer a los humanos que se refiere a meses como febrero, abril, etc., mientras que GPT-4 puede malinterpretarlo como un mes con un número par de días. Esto no solo revela las limitaciones de la IA para comprender los contextos cotidianos, sino que también nos lleva a reflexionar sobre cómo comunicarnos de manera más efectiva con estos grandes modelos de lenguaje. Con el avance continuo de la tecnología de inteligencia artificial, cómo cerrar la brecha entre humanos y máquinas en la comprensión del lenguaje es un tema importante para futuras investigaciones.

En respuesta, el Laboratorio de Inteligencia General Artificial dirigido por el profesor Gu Quanquan de la Universidad de California en Los Ángeles (UCLA) publicó un informe de investigación que propone una solución innovadora a la ambigüedad de los grandes modelos de lenguaje (como GPT-4) en la comprensión de problemas. El estudio fue completado por los estudiantes de doctorado Yihe Deng, Weitong Zhang y Zixiang Chen.

*Dirección:

  • Dirección del proyecto:

El núcleo del esquema es hacer que el modelo de lenguaje grande repita y amplíe las preguntas planteadas para mejorar la precisión de sus respuestas. El estudio encontró que las preguntas reformuladas por GPT-4 se volvieron más detalladas y el formato de la pregunta más claro. Este método de paráfrasis y expansión mejora significativamente la precisión de las respuestas del modelo. Los experimentos han demostrado que un buen recuento de la pregunta aumenta la precisión de la respuesta del 50% a casi el 100%. Esta mejora del rendimiento no solo demuestra el potencial de los grandes modelos de lenguaje para mejorarse a sí mismos, sino que también proporciona una nueva perspectiva sobre cómo la IA puede procesar y comprender el lenguaje humano de manera más eficiente.

Método

Sobre la base de estos hallazgos, los investigadores proponen un mensaje simple pero efectivo (): "Reformule y amplíe la pregunta, y responda" (RaR). Este mensaje mejora directamente la calidad de las respuestas del LLM a las preguntas y demuestra una mejora significativa en el manejo de problemas.

El equipo de investigación también ha propuesto una variante de RaR, llamada "RaR de dos pasos", para aprovechar al máximo la capacidad de modelos grandes como GPT-4 para volver a contar problemas. Este enfoque sigue dos pasos: en primer lugar, para un problema determinado, se genera un problema de paráfrasis utilizando un LLM de reformulación especializado; En segundo lugar, la pregunta original y la pregunta que se vuelve a contar se combinan para que el LLM que responde responda.

Resultados

Los experimentos en diferentes tareas han demostrado una eficacia constante en la mejora de la precisión de las respuestas de GPT4, tanto (un paso) como dos pasos. En particular, RaR ha mostrado mejoras significativas en tareas que de otro modo serían un desafío para GPT-4, con una precisión cercana al 100% en algunos casos. En base a esto, el equipo de investigación ha resumido las siguientes dos conclusiones clave:

  1. Repeat and Expand (RaR) proporciona un enfoque plug-and-play, de caja negra, para la solicitud que puede mejorar eficazmente el rendimiento de los LLM en una variedad de tareas.

  2. Al evaluar el desempeño de los LLM en tareas de preguntas y respuestas (QA), es crucial verificar la calidad de las preguntas.

Además, los investigadores utilizaron Two-step RaR para explorar el rendimiento de diferentes modelos como GPT-4, GPT-3.5 y Vicuña-13b-v.15. Los resultados experimentales muestran que para modelos con arquitecturas más complejas y una potencia de procesamiento más potente, como GPT-4, el método RaR puede mejorar significativamente la precisión y la eficiencia de su procesamiento de problemas. Para modelos más simples, como Vicuña, se ha demostrado, aunque en menor medida, la efectividad de la estrategia RaR. Basándose en esto, los investigadores examinaron más a fondo la calidad de las preguntas después de volver a contar diferentes modelos. Para el problema de volver a contar un modelo más pequeño, a veces puede haber una perturbación de la intención de la pregunta. Las preguntas de paráfrasis proporcionadas por modelos avanzados como GPT-4 tienden a ser más consistentes con la intención humana y mejoran las respuestas de otros modelos.

Este hallazgo revela un fenómeno importante: existen diferencias en la calidad y efectividad del problema de la narración de modelos lingüísticos en diferentes niveles. Los modelos avanzados como GPT-4, en particular, son capaces de volver a contar el problema no solo para proporcionarse una comprensión más clara del problema, sino también para servir como una entrada efectiva para mejorar el rendimiento de otros modelos más pequeños.

Diferencia con la Cadena de Pensamiento (CoT)

Para comprender la diferencia entre RaR y la cadena de pensamiento (CoT), los investigadores idearon su formulación matemática y arrojaron luz sobre cómo RaR es matemáticamente diferente de CoT y cómo se pueden combinar fácilmente.

Este estudio también sugiere que se debe mejorar la calidad de las preguntas para garantizar que la capacidad de razonamiento del modelo pueda evaluarse adecuadamente. Por ejemplo, en el caso del "lanzamiento de monedas", se descubrió que, a diferencia de las intenciones humanas, GPT-4 entendía la palabra "lanzar" como un lanzamiento aleatorio. Este concepto erróneo persiste en el proceso de inferencia cuando el modelo guiado utiliza "Pensemos paso a paso" para la inferencia. Solo después de que se haya aclarado la pregunta, el modelo de lenguaje grande responderá a la pregunta esperada.

Además, los investigadores notaron que, además del texto de la pregunta, los ejemplos de preguntas y respuestas utilizados para CoT de pocas tomas también fueron escritos por humanos. Esto plantea la pregunta: ¿cómo reaccionan los grandes modelos de lenguaje (LLM) cuando estos ejemplos construidos artificialmente son defectuosos? El estudio proporciona un ejemplo interesante y encuentra que los malos ejemplos de CoT de pocos disparos pueden tener un impacto negativo en los LLM. En el caso de la tarea Concatenación de la última letra, por ejemplo, el ejemplo de problema utilizado anteriormente mostró resultados positivos en la mejora del rendimiento del modelo. Sin embargo, cuando la lógica del aviso cambia, como por ejemplo de encontrar la última letra a encontrar la primera letra, GPT-4 da la respuesta incorrecta. Este fenómeno pone de manifiesto la sensibilidad del modelo a los ejemplos humanos.

Los investigadores descubrieron que, mediante el uso de RaR, GPT-4 era capaz de corregir defectos lógicos en un ejemplo determinado, mejorando así la calidad y la robustez de la CoT de pocos disparos.

Conclusión

Puede haber malentendidos en la comunicación entre los humanos y los grandes modelos de lenguaje (LLM): las preguntas que parecen claras para los humanos pueden ser entendidas por los grandes modelos de lenguaje como otras preguntas. El equipo de investigación de UCLA desarrolló RaR como un enfoque novedoso basado en esta pregunta, lo que llevó a los LLM a repetir y aclarar la pregunta antes de responder.

La evaluación experimental de RaR en una serie de conjuntos de datos de referencia confirmó la eficacia de su enfoque. Un análisis más detallado muestra que la mejora de la calidad del problema obtenida a través de la renarración puede transferirse a todos los modelos.

En el futuro, se espera que métodos como RaR continúen mejorando, y su integración con otros métodos como CoT, allanará el camino para interacciones más precisas y efectivas entre humanos y grandes modelos de lenguaje, lo que en última instancia ampliará los límites de las capacidades de interpretación y razonamiento de la IA.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)