Escanea para descargar la aplicación Gate
qrCode
Más opciones de descarga
No volver a recordar hoy

Advertencia del creador de Transformer: AI atrapada en la arquitectura original, Jen-Hsun Huang insta a los siete autores a romper el estancamiento.

En 2017, el artículo “Attention is All You Need” hizo su aparición, introduciendo por primera vez el modelo Transformer basado en el mecanismo de autoatención, liberándose de las limitaciones de las RNN y CNN tradicionales, y superando de manera efectiva el problema de la dependencia a largo plazo a través del procesamiento en paralelo. En la conferencia GTC 2024, el CEO de Nvidia, Jen-Hsun Huang, invitó a los siete autores del Transformer a aparecer juntos.

Transformer se originó en el dilema de eficiencia de la traducción automática

Trasnformer siete autores en conjunto

(Fuente: NVIDIA)

Jen-Hsun Huang preguntó qué problemas encontraron en ese momento y qué inspiró al equipo a crear el Transformer. Illia Polosukhin respondió: “Si quieres lanzar un modelo que realmente pueda leer los resultados de búsqueda, como manejar montones de documentos, necesitas algunos modelos que puedan procesar esa información rápidamente. Las redes neuronales recurrentes (RNN) de ese momento no podían satisfacer esa necesidad.”

Jakob Uszkoreit añadió: “La velocidad a la que generamos datos de entrenamiento supera con creces la capacidad de nuestros modelos más avanzados. De hecho, utilizamos arquitecturas más simples, como redes neuronales de retroalimentación que usan n-gram como características de entrada. Estas arquitecturas, al menos con grandes volúmenes de datos de entrenamiento a escala de Google, suelen superar a modelos más complejos y avanzados debido a su velocidad de entrenamiento más rápida.”

Noam Shazeer proporcionó una visión clave: “Parece que este es un problema urgente por resolver. Empezamos a notar estas leyes de escalado alrededor de 2015, y puedes ver que a medida que aumenta el tamaño del modelo, también aumenta su nivel de inteligencia. Y una gran frustración es que trabajar con RNN es realmente complicado. Luego, escuché por casualidad a estos tipos discutiendo, 'Oye, sustituyámoslo con convoluciones o mecanismos de atención'. Pensé, genial, hagámoslo. Me gusta comparar el Transformer con el salto de la máquina de vapor al motor de combustión interna. Podríamos haber completado la revolución industrial con la máquina de vapor, pero eso habría sido muy doloroso, mientras que el motor de combustión interna lo hizo todo mucho mejor.”

Las tres principales cuestiones que resuelve Transformer

Procesamiento paralelo: Libérate de las limitaciones del procesamiento secuencial de RNN y realiza cálculos verdaderamente paralelos.

Dependencia a Largo Plazo: Captura eficazmente las relaciones entre vocablos a larga distancia a través de un mecanismo de autoatención.

Eficiencia de entrenamiento: Aumenta significativamente la velocidad de entrenamiento del modelo, haciendo posible el preentrenamiento a gran escala.

Estos avances tecnológicos han convertido a Transformer en la piedra angular de la IA moderna. Modelos de lenguaje de gran tamaño como ChatGPT, BERT y GPT-4 se basan en la arquitectura de Transformer. Sin embargo, siete años después, los creadores creen que es hora de un nuevo avance.

atrapado en la trampa de eficiencia del modelo original

Aidan Gomez declaró: “Creo que este mundo necesita algo mejor que Transformer, y creo que todos los que estamos aquí deseamos que sea reemplazado por algo que nos lleve a una nueva cúspide de rendimiento.” Llion Jones añadió: “Estamos atrapados en modelos primitivos, aunque técnicamente puede que no sean las cosas más poderosas que tenemos ahora. Pero todos saben qué tipo de herramientas personales quieren, quieren hacer mejores ventanas de contexto, desean una capacidad de generación de tokens más rápida. Actualmente están utilizando demasiados recursos computacionales. Creo que todos han realizado muchos cálculos desperdiciados.”

Jakob Uszkoreit señala el problema central: “Pero creo que esto se trata principalmente de cómo asignar recursos, y no de cuántos recursos se consumen en total. Por ejemplo, no queremos gastar demasiado en un problema fácil, o gastar demasiado poco en un problema demasiado difícil y terminar sin una solución.”

Illia Polosukhin proporcionó un ejemplo vívido: “Este ejemplo es como 2+2, si lo ingresas correctamente en este modelo, utilizará un billón de parámetros. Así que creo que la computación adaptativa es una de las cosas que debe surgir a continuación, sabemos cuánto recurso computacional deberíamos gastar en problemas específicos.” Esta crítica revela la falla fundamental de los modelos de IA actuales: la falta de adaptabilidad, invirtiendo los mismos recursos computacionales en problemas simples y complejos, lo que causa un gran desperdicio.

Noam Shazeer analiza desde una perspectiva económica: “Creo que los modelos actuales son demasiado económicos y aún son demasiado pequeños. El costo de cálculo por operación es de aproximadamente 10 a 18 dólares. Si observas un modelo con quinientos mil millones de parámetros y cada token realiza mil billones de cálculos, sería aproximadamente un dólar por millón de tokens, lo cual es 100 veces más barato que salir a comprar un libro de bolsillo y leerlo.” Esta perspectiva es contraria al sentido común pero profunda: la IA es actualmente demasiado barata, lo que lleva a las personas a abusar en lugar de valorar los recursos de cálculo.

Dirección futura: capacidad de cálculo y razonamiento adaptativo

Lukasz Kaiser reveló un hecho importante: “No tuvimos éxito en nuestro objetivo inicial, comenzamos con la intención de simular el proceso de evolución de los Tokens. No es solo un proceso de generación lineal, sino una evolución gradual de las palabras o el código.” Esta confesión muestra que, aunque el Transformer ha tenido éxito, no ha logrado completamente la visión de sus creadores.

Jakob Uszkoreit señaló la siguiente dirección: “El siguiente paso es el razonamiento. Todos reconocemos la importancia del razonamiento, pero mucho del trabajo aún se realiza manualmente por ingenieros. Esperamos que el modelo pueda generar el contenido que deseamos, ya sea video, texto o información 3D, todos deberían integrarse.” Esto sugiere que la futura arquitectura de IA necesitará una capacidad de razonamiento más fuerte y una integración multimodal.

Aidan Gomez añadió: “¿Podemos lograr múltiples tareas y múltiples líneas en paralelo? Si realmente quieres construir un modelo así, ayúdanos a diseñar un modelo así, es una muy buena manera.” Lukasz Kaiser considera: “El razonamiento proviene en realidad de los datos, necesitamos hacer que los datos sean más ricos.” Estas discusiones apuntan a varias direcciones clave para las arquitecturas de IA posteriores a Transformer: computación adaptativa, razonamiento mejorado, fusión multimodal y un uso de datos más eficiente.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)