En escenarios de texto largo, los modelos de lenguaje grandes, como ChatGPT, a menudo se enfrentan a mayores costos de potencia de cómputo, mayor latencia y peor rendimiento. Para resolver estos tres desafíos, Microsoft abrió el código LongLLMLingua.
Se informa que el principio técnico básico de LongLLMLingua es lograr hasta 20 veces el límite de compresión de la "indicación de texto" y, al mismo tiempo, puede evaluar con precisión la relevancia del contenido en la indicación para el problema, eliminar el contenido irrelevante y retener la información clave, y lograr el propósito de reducir los costos y aumentar la eficiencia.
Los resultados experimentales muestran que el rendimiento del prompt ** comprimido por LongLLMLingua es un 17,1% superior al del prompt original, y los tokens introducidos en GPT-3.5-Turbo se reducen 4 veces**. Las pruebas LongBench y ZeroScrolls mostraron un ahorro de costes de 28,5 y 27,4 dólares por cada 1.000 muestras.
Cuando se comprime una pista de aproximadamente 10 k tokens y la relación de compresión está en el rango de 2-10x, la latencia de extremo a extremo se puede reducir en 1.4-3.8x, acelerando significativamente la tasa de inferencia.
Dirección del papel:
Dirección de código abierto:
A partir del documento introductorio, LongLLMLingua se compone principalmente de cuatro módulos: compresión de grano grueso y fino consciente de problemas, reordenamiento de documentos, relación de compresión dinámica y recuperación de subsecuencias después de la compresión.
Módulo de compresión de grano grueso con reconocimiento de problemas
La idea de este módulo es usar condicionalmente el texto de la pregunta, evaluar qué tan relevante es cada párrafo para la pregunta y retener los párrafos más relevantes.
Específicamente, al calcular el grado de confusión condicional del texto del problema y de cada párrafo, se juzga el grado de correlación lógica entre ambos, y cuanto menor sea la confusión condicional, mayor será la relevancia.
Sobre esta base, establezca un umbral para mantener los párrafos con poca confusión y filtre los párrafos que no son relevantes para el problema. Esto permite la compresión de grano grueso para eliminar rápidamente grandes cantidades de información redundante en función del problema.
Módulo de reordenación de documentos
Los estudios han demostrado que, entre las indicaciones, el contenido cercano a las posiciones inicial y final tiene el mayor impacto en el modelo de lenguaje. Por lo tanto, el módulo reordena cada párrafo según su relevancia, de modo que la información clave aparece en una posición más sensible al modelo, reduciendo la pérdida de información en la posición media.
Al utilizar el módulo de compresión de grano grueso para calcular la relevancia de cada párrafo para el problema, los párrafos se ordenan de modo que el párrafo con el mayor grado de relevancia se clasifique en primer lugar. Esto mejora aún más la percepción del modelo de la información crítica.
Después de obtener los párrafos relacionados reordenados, la cantidad de palabras dentro de cada párrafo debe comprimirse aún más. En este punto, el módulo de relación de compresión dinámica ajusta con precisión el mensaje.
Módulo de relación de compresión dinámica
Utilice una relación de compresión más baja para los párrafos más relevantes y asigne más presupuesto para las palabras reservadas, mientras que utilice una relación de compresión más alta para los párrafos menos relevantes.
La relación de compresión de cada párrafo se determina dinámicamente utilizando la asociatividad de párrafo en el resultado de compresión de grano grueso. Los párrafos más relevantes tienen la relación de compresión más baja, y así sucesivamente.
Logre un control de compresión adaptativo y detallado para retener eficazmente la información crítica. Después de la compresión, también es necesario mejorar la confiabilidad de los resultados, lo que requiere el siguiente módulo de recuperación de subsecuencia comprimida.
Módulo de recuperación de subsecuencia después de la compresión
Durante el proceso de compresión, algunas palabras clave pueden eliminarse en exceso, lo que afecta a la integridad de la información, y el módulo puede detectar y restaurar estas palabras clave.
El principio de funcionamiento es utilizar la relación de subsecuencia entre el texto de origen, el texto comprimido y el texto generado para recuperar las frases nominales clave completas de los resultados generados, reparar la falta de información aportada por la compresión y mejorar la precisión de los resultados.
Todo el proceso es un poco como nuestro flujo de trabajo para navegar rápidamente por los artículos, filtrar la información, integrar los puntos clave, etc., de modo que el modelo captura rápidamente la información clave del texto y produce resúmenes de alta calidad.
Datos experimentales de LongLLMLingua
Los investigadores construyeron un conjunto de datos de preguntas y respuestas de varios documentos basado en preguntas naturales, en el que cada ejemplo contenía una pregunta y 20 documentos relacionados de los que se necesitaban respuestas.
Este conjunto de datos simula escenarios reales de preguntas y respuestas y motores de búsqueda para evaluar el rendimiento de preguntas y respuestas del modelo en documentos largos.
Además, los investigadores utilizaron un conjunto más general de puntos de referencia de comprensión de textos largos, incluidos LongBench y ZeroSCROLLS, para evaluar la eficacia del método en una gama más amplia de escenarios.
Entre ellos, LongBench cubre tareas como preguntas y respuestas de un solo documento, preguntas y respuestas de varios documentos, resumen de texto y aprendizaje de pocas muestras, incluidos los conjuntos de datos en inglés. ZeroSCROLLS incluye tareas típicas de comprensión del lenguaje, como el resumen de textos, la comprensión de respuestas a preguntas y el análisis de sentimientos.
En estos conjuntos de datos, los investigadores compararon el rendimiento del prompt comprimido de LongLLMLingua con el prompt original en un modelo de lenguaje grande. Al mismo tiempo, se evaluó la efectividad de LongLLMLingua en comparación con otros métodos de compresión rápida, como LLMLingua basado en rompecabezas y métodos basados en recuperación.
Los resultados experimentales muestran que el mensaje comprimido de LongLLMLingua es generalmente mejor que el mensaje original en términos de precisión de preguntas y respuestas y calidad del texto generado.
Por ejemplo, en NaturalQuestions, la compresión 4x de las indicaciones mejoró la precisión de las preguntas y respuestas en un 17,1 %. Al comprimir una pista de aproximadamente 10k tokens, la relación de compresión está en el rango de 2-10x, y la latencia de extremo a extremo se puede reducir en 1.4-3.8x. Esto demuestra plenamente que LongLLMLingua puede mejorar la extracción de información clave mientras comprime las sugerencias.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡Hasta 20 veces! Comprima las indicaciones de texto del modelo, como ChatGPT, para ahorrar en gran medida la potencia informática de la IA
Fuente original: AIGC Open Community
En escenarios de texto largo, los modelos de lenguaje grandes, como ChatGPT, a menudo se enfrentan a mayores costos de potencia de cómputo, mayor latencia y peor rendimiento. Para resolver estos tres desafíos, Microsoft abrió el código LongLLMLingua.
Se informa que el principio técnico básico de LongLLMLingua es lograr hasta 20 veces el límite de compresión de la "indicación de texto" y, al mismo tiempo, puede evaluar con precisión la relevancia del contenido en la indicación para el problema, eliminar el contenido irrelevante y retener la información clave, y lograr el propósito de reducir los costos y aumentar la eficiencia.
Los resultados experimentales muestran que el rendimiento del prompt ** comprimido por LongLLMLingua es un 17,1% superior al del prompt original, y los tokens introducidos en GPT-3.5-Turbo se reducen 4 veces**. Las pruebas LongBench y ZeroScrolls mostraron un ahorro de costes de 28,5 y 27,4 dólares por cada 1.000 muestras.
Cuando se comprime una pista de aproximadamente 10 k tokens y la relación de compresión está en el rango de 2-10x, la latencia de extremo a extremo se puede reducir en 1.4-3.8x, acelerando significativamente la tasa de inferencia.
Dirección del papel:
Dirección de código abierto:
A partir del documento introductorio, LongLLMLingua se compone principalmente de cuatro módulos: compresión de grano grueso y fino consciente de problemas, reordenamiento de documentos, relación de compresión dinámica y recuperación de subsecuencias después de la compresión.
Módulo de compresión de grano grueso con reconocimiento de problemas
La idea de este módulo es usar condicionalmente el texto de la pregunta, evaluar qué tan relevante es cada párrafo para la pregunta y retener los párrafos más relevantes.
Sobre esta base, establezca un umbral para mantener los párrafos con poca confusión y filtre los párrafos que no son relevantes para el problema. Esto permite la compresión de grano grueso para eliminar rápidamente grandes cantidades de información redundante en función del problema.
Módulo de reordenación de documentos
Los estudios han demostrado que, entre las indicaciones, el contenido cercano a las posiciones inicial y final tiene el mayor impacto en el modelo de lenguaje. Por lo tanto, el módulo reordena cada párrafo según su relevancia, de modo que la información clave aparece en una posición más sensible al modelo, reduciendo la pérdida de información en la posición media.
Al utilizar el módulo de compresión de grano grueso para calcular la relevancia de cada párrafo para el problema, los párrafos se ordenan de modo que el párrafo con el mayor grado de relevancia se clasifique en primer lugar. Esto mejora aún más la percepción del modelo de la información crítica.
Módulo de relación de compresión dinámica
Utilice una relación de compresión más baja para los párrafos más relevantes y asigne más presupuesto para las palabras reservadas, mientras que utilice una relación de compresión más alta para los párrafos menos relevantes.
Logre un control de compresión adaptativo y detallado para retener eficazmente la información crítica. Después de la compresión, también es necesario mejorar la confiabilidad de los resultados, lo que requiere el siguiente módulo de recuperación de subsecuencia comprimida.
Módulo de recuperación de subsecuencia después de la compresión
Durante el proceso de compresión, algunas palabras clave pueden eliminarse en exceso, lo que afecta a la integridad de la información, y el módulo puede detectar y restaurar estas palabras clave.
El principio de funcionamiento es utilizar la relación de subsecuencia entre el texto de origen, el texto comprimido y el texto generado para recuperar las frases nominales clave completas de los resultados generados, reparar la falta de información aportada por la compresión y mejorar la precisión de los resultados.
Datos experimentales de LongLLMLingua
Los investigadores construyeron un conjunto de datos de preguntas y respuestas de varios documentos basado en preguntas naturales, en el que cada ejemplo contenía una pregunta y 20 documentos relacionados de los que se necesitaban respuestas.
Este conjunto de datos simula escenarios reales de preguntas y respuestas y motores de búsqueda para evaluar el rendimiento de preguntas y respuestas del modelo en documentos largos.
Además, los investigadores utilizaron un conjunto más general de puntos de referencia de comprensión de textos largos, incluidos LongBench y ZeroSCROLLS, para evaluar la eficacia del método en una gama más amplia de escenarios.
Entre ellos, LongBench cubre tareas como preguntas y respuestas de un solo documento, preguntas y respuestas de varios documentos, resumen de texto y aprendizaje de pocas muestras, incluidos los conjuntos de datos en inglés. ZeroSCROLLS incluye tareas típicas de comprensión del lenguaje, como el resumen de textos, la comprensión de respuestas a preguntas y el análisis de sentimientos.
Los resultados experimentales muestran que el mensaje comprimido de LongLLMLingua es generalmente mejor que el mensaje original en términos de precisión de preguntas y respuestas y calidad del texto generado.
Por ejemplo, en NaturalQuestions, la compresión 4x de las indicaciones mejoró la precisión de las preguntas y respuestas en un 17,1 %. Al comprimir una pista de aproximadamente 10k tokens, la relación de compresión está en el rango de 2-10x, y la latencia de extremo a extremo se puede reducir en 1.4-3.8x. Esto demuestra plenamente que LongLLMLingua puede mejorar la extracción de información clave mientras comprime las sugerencias.