El sexto aniversario de Transformer: ni siquiera se obtuvo el NeurIPS Oral, y 8 autores han fundado varios unicornios de IA

Algunas personas se unieron a OpenAI, algunas fundaron nuevas empresas y otras se quedaron con Google AI. Fueron ellos quienes iniciaron conjuntamente la era actual del desarrollo de la IA.

Desde ChatGPT hasta la tecnología de dibujo de IA, la reciente ola de avances en el campo de la inteligencia artificial puede deberse a Transformer.

Hoy se cumple el sexto aniversario de la presentación del famoso papel transformador.

Enlace de papel:

Hace seis años, se subió a la plataforma de papel preimpreso arXiv un artículo con un nombre exagerado, la frase "xx is All You Need" fue repetida por los desarrolladores en el campo de la IA, e incluso se convirtió en tendencia en el título del artículo. paper. , y Transformador ya no es el significado de Transformadores, ahora representa la tecnología más avanzada en el campo de la IA.

Seis años después, mirando hacia atrás en este documento de ese año, podemos encontrar muchos lugares interesantes o poco conocidos, como lo resume Jim Fan, un científico de IA en Nvidia.

## ** "Mecanismo de atención" no es propuesto por el autor de Transformador **

El modelo Transformer abandona las unidades tradicionales de CNN y RNN, y toda la estructura de la red se compone enteramente de mecanismos de atención.

Aunque el nombre del artículo de Transformer es "La atención es todo lo que necesitas", seguimos promoviendo el mecanismo de atención debido a esto, pero ten en cuenta un hecho interesante: no son los investigadores de Transformer quienes inventaron la atención, sino que pusieron esto en The el mecanismo es llevado al extremo.

El mecanismo de atención fue propuesto por un equipo dirigido por el pionero del aprendizaje profundo Yoshua Bengio en 2014:

* "Traducción automática neuronal mediante el aprendizaje conjunto para alinear y traducir", el título es relativamente simple. *

En este artículo de ICLR 2015, Bengio y otros propusieron una combinación de RNN + "vector de contexto" (es decir, atención). Si bien es uno de los hitos más importantes de la PNL, es mucho menos conocido que Transformer, ya que el artículo del equipo de Bengio ha sido citado 29 000 veces hasta la fecha y el de Transformer 77 000.

El mecanismo de atención de la IA se basa naturalmente en la atención visual humana. Hay una habilidad innata en el cerebro humano: cuando miramos una imagen, primero escaneamos rápidamente la imagen y luego fijamos el área de destino que debe enfocarse.

Si no suelta ninguna información local, inevitablemente hará mucho trabajo inútil, que no es propicio para la supervivencia. Asimismo, la introducción de mecanismos similares en las redes de aprendizaje profundo puede simplificar los modelos y acelerar el cálculo. En esencia, la Atención consiste en filtrar una pequeña cantidad de información importante de una gran cantidad de información y centrarse en esta información importante, ignorando la mayor parte de la información sin importancia.

En los últimos años, el mecanismo de atención se ha utilizado ampliamente en varios campos del aprendizaje profundo, como en la visión por computadora para capturar campos receptivos en imágenes o en NLP para ubicar tokens o características clave. Una gran cantidad de experimentos han demostrado que el modelo con el mecanismo de atención ha logrado mejoras significativas en el rendimiento de tareas como la clasificación de imágenes, la segmentación, el seguimiento, la mejora y el reconocimiento, la comprensión, la respuesta a preguntas y la traducción del lenguaje natural.

El modelo de Transformer que introduce el mecanismo de atención se puede considerar como una computadora de secuencia de uso general. El mecanismo de atención permite que el modelo asigne diferentes pesos de atención de acuerdo con la correlación de las diferentes posiciones en la secuencia al procesar la secuencia de entrada. Permite que Transformer capturar dependencias de larga distancia e información de contexto, mejorando así el efecto del procesamiento de secuencias.

Pero en ese año, ni el Transformer ni el artículo de atención original hablaban de una computadora secuencial de propósito general. En cambio, los autores lo ven como un mecanismo para resolver un problema limitado y específico: la traducción automática. Entonces, cuando rastreamos el origen de AGI en el futuro, podemos rastrearlo hasta el "discreto" Traductor de Google.

Aunque fue aceptado por NeurIPS 2017, ni siquiera obtuvo un Oral

Aunque el artículo de Transformer es muy influyente ahora, ni siquiera obtuvo un Oral, y mucho menos un premio, en la conferencia de inteligencia artificial más importante del mundo, NeurIPS 2017. La conferencia recibió un total de 3.240 presentaciones de artículos ese año, de los cuales 678 fueron seleccionados como artículos de conferencia. El artículo de Transformer fue uno de los artículos aceptados. Entre estos artículos, 40 fueron artículos orales, 112 artículos destacados y 3 fueron los mejores Papeles, un premio Prueba de tiempo, Transformador se perdió el premio.

Aunque se perdió el premio de trabajo de NeurIPS 2017, la influencia de Transformer es obvia para todos.

Jim Fan comentó: No es culpa de los jueces que sea difícil para las personas darse cuenta de la importancia de un estudio influyente antes de que se vuelva influyente. Sin embargo, también hay artículos que tienen la suerte de ser descubiertos en primer lugar. Por ejemplo, ResNet propuesto por He Kaiming y otros ganó el mejor artículo de CVPR 2016 ese año. Esta investigación es bien merecida y ha sido correctamente reconocida por la Cumbre de IA. Pero en este momento en 2017, es posible que los investigadores muy inteligentes no puedan predecir los cambios provocados por LLM ahora.Al igual que en la década de 1980, pocas personas podían prever el tsunami provocado por el aprendizaje profundo desde 2012.

## Ocho autores, sus vidas son maravillosas

En ese momento, había 8 autores de este artículo, eran de Google y de la Universidad de Toronto. Cinco años después, la mayoría de los autores del artículo abandonaron la institución original.

El 26 de abril de 2022, se estableció oficialmente una empresa llamada "Adept", con 9 cofundadores, incluidos Ashish Vaswani y Niki Parmar, dos de los autores del artículo de Transformer.

Ashish Vaswani recibió un doctorado de la Universidad del Sur de California, bajo la tutela de los académicos chinos David Chiang y Liang Huang, e investigó principalmente la aplicación temprana del aprendizaje profundo moderno en el modelado del lenguaje. En 2016, se unió a Google Brain y dirigió la investigación de Transformer, dejando Google en 2021.

Niki Parmar se graduó de la Universidad del Sur de California con una maestría y se unió a Google en 2016. Durante su trabajo, desarrolló algunos modelos exitosos de respuesta a preguntas y similitud de texto para la búsqueda y la publicidad de Google. Dirigió los primeros trabajos sobre la extensión del modelo Transformer a la generación de imágenes, la visión por computadora y más. En 2021, también dejará Google.

Después de irse, los dos cofundaron Adept y se desempeñaron como científico jefe (Ashish Vaswani) y director de tecnología (Niki Parmar), respectivamente. La visión de Adept es crear una IA llamada "compañero de equipo de inteligencia artificial" que esté capacitado para usar una variedad de diferentes herramientas de software y API.

En marzo de 2023, Adept anunció la finalización de una ronda de financiamiento de la Serie B de US $ 350 millones. La valoración de la empresa superó los US $ 1 mil millones y fue ascendida a unicornio. Sin embargo, cuando Adept recaudó su financiación pública, Niki Parmar y Ashish Vaswani habían dejado Adept para iniciar su propia nueva empresa de IA. Sin embargo, la nueva empresa está actualmente en secreto y no tenemos acceso a los detalles de la empresa.

Otro autor del artículo, Noam Shazeer, fue uno de los primeros empleados más importantes de Google. Se unió a Google a fines de 2000, hasta que finalmente se fue en 2021 y luego se convirtió en el director ejecutivo de una empresa emergente llamada "Character.AI".

Además de Noam Shazeer, el fundador de Character.AI es Daniel De Freitas, ambos del equipo LaMDA de Google. Anteriormente, crearon LaMDA, un modelo de lenguaje que admite programas conversacionales, en Google.

En marzo de este año, Character.AI anunció la finalización de una financiación de 150 millones de dólares EE. UU., con una valoración de 1000 millones de dólares EE. UU. Es una de las pocas empresas emergentes que tiene potencial para competir con OpenAI, la agencia de ChatGPT, y también es raro crecer en solo meses 16. Para empresas unicornio. Su aplicación, Character.AI, es un chatbot de modelo de lenguaje neuronal que puede generar respuestas de texto similares a las humanas y participar en conversaciones contextuales.

Character.AI se lanzó en Apple App Store y Google Play Store el 23 de mayo de 2023, con más de 1,7 millones de descargas en su primera semana. En mayo de 2023, el servicio agregó una suscripción paga de $ 9.99 por mes llamada c.ai +, que permite a los usuarios acceso prioritario al chat, tiempos de respuesta más rápidos y acceso anticipado a nuevas funciones, entre otras ventajas.

Aidan N. Gomez dejó Google en 2019, luego trabajó como investigador en FOR.ai y ahora es cofundador y director ejecutivo de Cohere.

Cohere es una startup de inteligencia artificial generativa fundada en 2019. Su negocio principal incluye proporcionar modelos de PNL y ayudar a las empresas a mejorar la interacción entre humanos y computadoras. Los tres fundadores son Ivan Zhang, Nick Frost y Aidan Gomez, donde Gomez y Frosst son ex miembros del equipo de Google Brain. En noviembre de 2021, Google Cloud anunció que cooperará con Cohere, Google Cloud usará su poderosa infraestructura para impulsar la plataforma Cohere y Cohere usará la TPU de Cloud para desarrollar e implementar sus productos.

En particular, Cohere acaba de recaudar $ 270 millones en fondos de la Serie C, lo que lo convierte en un unicornio de $ 2,2 mil millones.

Łukasz Kaiser dejó Google en 2021, trabajó en Google durante 7 años y 9 meses y ahora es investigador en OpenAI. Durante su tiempo como científico investigador en Google, participó en el diseño de modelos neuronales SOTA para traducción automática, análisis y otras tareas algorítmicas y generativas, y fue coautor del sistema TensorFlow, la biblioteca Tensor2Tensor.

Jakob Uszkoreit dejó Google en 2021 y trabajó en Google durante 13 años antes de unirse a Inception como cofundador. Inceptivo es una compañía farmacéutica de IA dedicada a usar el aprendizaje profundo para diseñar medicamentos de ARN.

Mientras estuvo en Google, Jakob Uszkoreit ayudó a crear el equipo de comprensión de idiomas para el Asistente de Google y trabajó en Google Translate desde el principio.

Illia Polosukhin dejó Google en 2017 y ahora es cofundadora y CTO de NEAR.AI (una empresa de tecnología subyacente de blockchain).

El único que sigue en Google es Llion Jones, este año es su noveno año trabajando en Google.

Ahora, han pasado 6 años desde la publicación del artículo "Attention Is All You Need". Algunos de los autores originales optaron por irse y otros optaron por permanecer en Google. En cualquier caso, la influencia de Transformer continúa.

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Comercie con criptomonedas en cualquier lugar y en cualquier momento
qrCode
Escanee para descargar la aplicación Gate.io
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)