¿No es el modelo grande un poco demasiado?

Fuente original: Yuanchuan Science and Technology Review

Fuente de la imagen: Generado por Unbounded AI

El mes pasado, estalló una "guerra animal" en la industria de la IA.

Por un lado está Llama (llama) de Meta, que históricamente ha sido popular entre la comunidad de desarrolladores debido a su naturaleza de código abierto. Después de estudiar cuidadosamente el artículo y el código fuente de Llama, NEC rápidamente "desarrolló de forma independiente" la versión japonesa de ChatGPT, ayudando a Japón a resolver el problema del cuello de la IA.

** En el otro lado hay un modelo grande llamado Falcon (Falcon). ** En mayo de este año, se lanzó el Falcon-40B, superando a la llama en el "Ranking de LLM (Large Language Model) de código abierto".

La lista, producida por Hugging face, una comunidad de modelos de código abierto, proporciona un conjunto de criterios para medir las capacidades de LLM y las clasifica. La tabla de clasificación es básicamente Llama y Falcon turnándose para desplazarse por los gráficos.

Después del lanzamiento de Llama 2, la familia de llamas recuperó una ciudad; Pero a principios de septiembre, Falcon lanzó la versión 180B, logrando una vez más clasificaciones más altas.

Falcon aplastó a Llama 2 con 68.74 puntos

Curiosamente, el desarrollador del "Halcón" no es una empresa de tecnología, sino el Instituto de Ciencia e Innovación Tecnológica con sede en Abu Dhabi, la capital de los Emiratos Árabes Unidos. Fuentes del gobierno dijeron: "Estamos involucrados en este juego para subvertir a los jugadores principales".[4] 。

Al día siguiente del lanzamiento de la versión 180B, el ministro de Inteligencia Artificial de los Emiratos Árabes Unidos, Omar, fue seleccionado como una de las "100 personas más influyentes en el campo de la IA" por la revista Time; Junto a este rostro de Oriente Medio estaban el "Padrino de la IA" Hinton, Altman de OpenAI y Robin Li.

Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos

Hoy en día, el campo de la IA ya ha entrado en la etapa de "baile grupal": todos los países y empresas con un poco de recursos financieros tienen más o menos planes para crear una "versión nacional XX de ChatGPT". Solo en los círculos del Golfo hay más de un jugador: Arabia Saudita acaba de comprar más de 3.000 H100 para sus universidades en agosto para entrenar a LLM.

Zhu Xiaohu, un capital de riesgo de GSR River, se quejó una vez en el círculo de amigos: "En aquel entonces, despreciaba la innovación del modelo de negocio (de Internet) y sentía que no había barreras: una guerra de cien regimientos, una guerra de cien coches, una guerra de cien transmisiones; No esperaba que el emprendimiento de grandes modelos de tecnología dura siguiera siendo una guerra de cien modelos..."

¿Cómo puede la tecnología dura de alta dificultad que se dice que es un país producir 100.000 gatos por mu?

Transformer devora el mundo

Las nuevas empresas estadounidenses, los gigantes tecnológicos de China y los barones del petróleo de Oriente Medio pudieron soñar en grande con modelos gracias al famoso artículo: "La atención es todo lo que necesitas".

En 2017, 8 científicos informáticos de Google revelaron el algoritmo Transformer al mundo en este artículo. Este artículo es actualmente el tercero más citado en la historia de la inteligencia artificial, y la aparición de Transformer ha apretado el gatillo de esta ronda de auge de la inteligencia artificial.

Independientemente de la nacionalidad, los grandes modelos actuales, incluida la serie GPT que sacude al mundo, se apoyan en los hombros del Transformer.

Antes de esto, "enseñar a leer a las máquinas" era un problema académico reconocido. A diferencia del reconocimiento de imágenes, cuando los humanos leen texto, no solo prestarán atención a las palabras y oraciones que están viendo actualmente, sino que también las entenderán en contexto.

Por ejemplo, la palabra "Transformer" en realidad se puede traducir como "Transformer", pero los lectores de este artículo ciertamente no lo entenderán de esta manera, porque todos saben que este no es un artículo sobre películas de Hollywood. **

Sin embargo, en los primeros años, la entrada de las redes neuronales era independiente entre sí, y no tenían la capacidad de entender un párrafo grande de texto o incluso todo el artículo, por lo que surgió el problema de traducir "sala de agua hirviendo" a "sala de aguas abiertas".

No fue hasta 2014 que Ilya Sutskever, un científico informático que trabajó en Google y luego se mudó a OpenAI, fue el primero en producir resultados. Utilizó redes neuronales recurrentes (RNN) para procesar el lenguaje natural, lo que rápidamente diferenció el rendimiento de Google Translate de la competencia.

RNN propone un "diseño de bucle", de manera que cada neurona acepta tanto la información de entrada del momento actual como la información de entrada del momento anterior, de modo que la red neuronal tenga la capacidad de "combinar contexto".

Redes neuronales recurrentes

La aparición de las RNN encendió una pasión por la investigación en los círculos académicos, y Noam Shazeer, el autor del artículo de Transformer, también era adicto a ella. Sin embargo, los desarrolladores se dieron cuenta rápidamente de que las RNN tenían un grave defecto:

** El algoritmo utiliza cálculos secuenciales, que pueden resolver el problema del contexto, pero no es eficiente y es difícil manejar una gran cantidad de parámetros. **

El engorroso diseño de la RNN aburrió rápidamente a Shazel. Entonces, desde 2015, Shazel y 7 amigos han estado desarrollando alternativas a las RNN, y el resultado es Transformer[8] 。

Noam Shazeer

En comparación con las RNN, la transformación de Transformer tiene dos puntos:

En primer lugar, el diseño de bucle de las RNN se sustituye por la codificación posicional, con lo que se realiza la computación paralela: este cambio mejora en gran medida la eficiencia de entrenamiento de Transformer, por lo que es capaz de procesar grandes cantidades de datos, empujando a la IA a la era de los grandes modelos; En segundo lugar, se ha fortalecido aún más la capacidad de fortalecer aún más el contexto.

A medida que Transformer resolvió muchos defectos de una sola vez, gradualmente se convirtió en la única solución para el NLP (procesamiento del lenguaje natural), que tiene un sentido de "Transformer no nace en la naturaleza, el NLP es como una larga noche". Incluso Ilya abandonó la RNN, que sostenía el altar con sus propias manos, y cambió a Transformer.

En otras palabras, Transformer es el abuelo de todos los grandes modelos actuales, porque ha convertido el gran modelo de un problema de investigación teórica en un problema puramente de ingeniería. **

[9]El diagrama de árbol de desarrollo de tecnología LLM, la raíz del árbol gris es el transformador

En 2019, OpenAI desarrolló GPT-2 basado en Transformer, que en su día sorprendió al círculo académico. En respuesta, Google lanzó rápidamente una IA más poderosa llamada Meena.

En comparación con GPT-2, Meena no tiene ninguna innovación de algoritmo subyacente, pero tiene 8,5 veces más parámetros de entrenamiento y 14 veces más potencia de cálculo que GPT-2. Shazel, el autor del artículo de Transformer, estaba tan conmocionado por la "pila violenta" que escribió un memorándum en el acto: "Meena devora el mundo".

La llegada de Transformer ha ralentizado en gran medida la innovación de los algoritmos subyacentes en el mundo académico. Los elementos de ingeniería, como la ingeniería de datos, la escala de potencia informática y la arquitectura del modelo, se han convertido cada vez más en importantes ganadores y perdedores en la competencia de la IA, y siempre que las empresas de tecnología con algunas capacidades técnicas puedan desechar un modelo grande a mano.

Por lo tanto, cuando el científico informático Andrew Ng dio un discurso en la Universidad de Stanford, mencionó un punto: "La IA es una colección de herramientas, que incluyen el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y ahora la inteligencia artificial generativa". Todas estas son tecnologías de propósito general, similares a otras tecnologías de propósito general como la electricidad e Internet.[10] "

OpenAI sigue siendo el referente de LLM, pero la firma de análisis de semiconductores Semi Analysis cree que la competitividad de GPT-4 proviene de las soluciones de ingeniería: si es de código abierto, cualquier competidor puede replicarlo rápidamente.

El analista predice que puede que no pase mucho tiempo antes de que otras grandes empresas tecnológicas puedan crear grandes modelos con el mismo rendimiento que GPT-4[11] 。

Foso construido sobre vidrio

En la actualidad, la "guerra de los cien modelos" ya no es un recurso retórico, sino una realidad objetiva.

Los informes relevantes muestran que a partir de julio de este año, el número de modelos grandes nacionales ha llegado a 130, más alto que los 114 en los Estados Unidos, logrando con éxito el adelantamiento en las curvas, y varios mitos y leyendas casi no son suficientes para que las empresas de tecnología nacionales tomen nombres[12] 。

Además de China y Estados Unidos, varios países más ricos también han logrado inicialmente "un país, un modelo":* * Además de Japón y los Emiratos Árabes Unidos, también están el gran modelo Bhashini, liderado por el gobierno indio, HyperClova X, de la empresa surcoreana de Internet Naver, etc. **

La batalla que tenemos por delante parece haber regresado a la era de los pioneros de Internet, donde las burbujas y las "capacidades de billetes" eran bombardeadas.

Como se mencionó anteriormente, Transformer convierte modelos grandes en problemas puramente de ingeniería, siempre que alguien tenga dinero y tarjetas gráficas, el resto se pierde en parámetros. Sin embargo, aunque el boleto de admisión no es difícil de obtener, no significa que todos tengan la oportunidad de convertirse en un BAT en la era de la IA.

La "guerra animal" mencionada al principio es un caso típico: aunque Falcon venció a la llama en el ranking, es difícil decir cuánto impacto ha tenido en Meta. **

Como todos sabemos, las empresas abren sus propios resultados de investigación científica, no solo para compartir el bienestar de la ciencia y la tecnología con el público, sino también para movilizar la sabiduría de la gente. A medida que los profesores universitarios, las instituciones de investigación y las pequeñas y medianas empresas continúen utilizando y mejorando Llama, Meta puede aplicar estos resultados a sus propios productos.

**Para el modelo de código abierto, una comunidad de desarrolladores activa es su competencia principal. **

Ya en 2015, cuando se creó el Laboratorio de IA, Meta había marcado la pauta principal del código abierto; Zuckerberg también hizo su fortuna en el negocio de las redes sociales, y está bien versado en el asunto de "hacer un buen trabajo en las relaciones públicas".

Por ejemplo, en octubre, Meta lanzó una campaña de "Incentivo para creadores de IA": los desarrolladores que utilicen Llama 2 para resolver problemas sociales como la educación y el medio ambiente tendrán la oportunidad de recibir 500.000 dólares de financiación.

Hoy en día, la serie Llama de Meta es la veleta del LLM de código abierto.

A principios de octubre, un total de 8 de las 10 mejores listas de LLM de código abierto de Hugging face se basan en Llama 2 y utilizan su licencia de código abierto. Solo en Hugging face, hay más de 1.500 LLM que utilizan el protocolo de código abierto Llama 2[13] 。

A partir de principios de octubre, el LLM número uno en Hugging face se basa en Llama 2

Por supuesto, está bien mejorar el rendimiento como Falcon, pero a día de hoy, la mayoría de los LLM del mercado siguen teniendo una brecha de rendimiento visible con GPT-4.

Por ejemplo, el otro día, GPT-4 encabezó la prueba AgentBench con una puntuación de 4,41. El estándar AgentBench es lanzado conjuntamente por la Universidad de Tsinghua, la Universidad Estatal de Ohio y la Universidad de California, Berkeley, para evaluar la capacidad de razonamiento y la capacidad de toma de decisiones de LLM en un entorno multidimensional de generación abierta, que incluye tareas en 8 entornos diferentes, como el sistema operativo, la base de datos, el gráfico de conocimiento y la batalla de cartas.

Los resultados de la prueba mostraron que Claude, que terminó segundo, solo tenía 2,77 puntos, y la brecha seguía siendo obvia. En cuanto a esos enormes LLM de código abierto, sus puntuaciones en las pruebas rondan 1 punto, menos de 1/4 de GPT-4[14] 。

Resultados de la prueba de AgentBench

Ya sabes, GPT-4 se lanzó en marzo de este año, que sigue siendo el resultado después de que sus pares globales se hayan puesto al día durante más de medio año. Lo que provoca esta brecha es la experiencia acumulada por el equipo de científicos de OpenAI con una alta "densidad de CI" y LLM de investigación a largo plazo, por lo que siempre puede estar muy por delante.

En otras palabras, la capacidad central del gran modelo no es un parámetro, sino la construcción de la ecología (código abierto) o la capacidad de razonamiento puro (código cerrado). **

A medida que la comunidad de código abierto se vuelve más activa, el rendimiento de los LLM puede converger porque todos utilizan arquitecturas de modelos similares y conjuntos de datos similares.

Otro enigma más intuitivo: aparte de Midjourney, ningún modelo grande parece ganar dinero.

Ancla de Valor

En agosto de este año, un curioso artículo titulado "OpenAI puede quebrar a finales de 2024" llamó mucho la atención[16] 。 La idea principal del artículo se puede resumir casi en una frase: la quema de dinero de OpenAI es demasiado rápida. **

El artículo mencionó que desde el desarrollo de ChatGPT, las pérdidas de OpenAI se están expandiendo rápidamente, perdiendo alrededor de $ 540 millones solo en 2022, y solo puede esperar a que los inversores de Microsoft paguen.

Aunque el título del artículo es sensacional, también cuenta la situación actual de muchos grandes proveedores de modelos: ** Existe un grave desequilibrio entre costes e ingresos. **

El costo es demasiado alto, lo que resulta en la dependencia actual de la inteligencia artificial para ganar mucho dinero, solo NVIDIA, a lo sumo, agrega un Broadcom.

Según la consultora Omdia, Nvidia vendió más de 300.000 unidades H100 en el segundo trimestre de este año. Este es un chip de IA, la eficiencia del entrenamiento de la IA es extremadamente alta y las empresas de tecnología y las instituciones de investigación científica de todo el mundo se están agotando. Si los 300.000 H100 vendidos estuvieran apilados uno encima del otro, pesarían el equivalente a 4,5 aviones Boeing 747[18] 。

El rendimiento de Nvidia también despegó, disparándose un 854% de ingresos interanuales, lo que una vez sorprendió a Wall Street. Por cierto, se ha especulado con el precio actual de H100 en el mercado de segunda mano en 40.000-50.000 dólares, pero su coste material es sólo de unos 3.000 dólares.

El alto costo de la potencia de cómputo se ha convertido en una resistencia para el desarrollo de la industria hasta cierto punto. Sequoia Capital ha hecho un cálculo: ** se espera que las empresas tecnológicas globales gasten 200.000 millones de dólares al año en la construcción de infraestructuras de gran envergadura; Por el contrario, los modelos grandes solo pueden generar hasta 75.000 millones de dólares al año, con una brecha de al menos 125.000 millones de dólares[17] 。 **

Jensen Huang con H100

Además, con algunas excepciones como Midjourney, la mayoría de las empresas de software aún no han descubierto cómo ganar dinero después de pagar enormes costos. En particular, los dos hermanos mayores líderes en la industria, Microsoft y Adobe, han tropezado un poco.

Microsoft y OpenAI han colaborado para desarrollar una herramienta de generación de código de IA, GitHub Copilot, que cobra 10 dólares al mes, pero debido al coste de las instalaciones, Microsoft pierde 20 dólares, y los usuarios intensivos pueden incluso hacer que Microsoft pague 80 dólares al mes. Según esta especulación, el Microsoft 365 Copilot de 30 dólares no es una pérdida.

Casualmente, Adobe, que acaba de lanzar la herramienta Firefly AI, también lanzó rápidamente un sistema de puntos de apoyo para evitar que los usuarios la usen en gran medida y hagan que la empresa pierda dinero. Una vez que un usuario utiliza más de los créditos asignados cada mes, Adobe ralentiza el servicio.

Debes saber que Microsoft y Adobe ya son gigantes del software con escenarios comerciales claros y una gran cantidad de usuarios de pago listos para usar. La mayoría de los parámetros están apilados en el cielo, y el escenario de aplicación más grande es el chat.

Es innegable que sin la aparición de OpenAI y ChatGPT, esta revolución de la IA podría no haber ocurrido en absoluto; Pero en la actualidad, el valor de entrenar modelos grandes puede ser un signo de interrogación.

Además, a medida que se intensifica la competencia por la homogeneización y hay cada vez más modelos de código abierto en el mercado, puede haber menos espacio para los proveedores simples de modelos grandes.

La popularidad del iPhone 4 no se debe al procesador A4 de 45 nm, sino a que puede jugar Plants vs. Zombies y Angry Birds.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)