Título original reenviado: Cálculo descentralizado
El artículo de hoy cubre el sector emergente pero a menudo mal entendido de la informática descentralizada en criptomonedas. Nos sumergimos en el panorama de la infraestructura de IA para entender dónde las alternativas descentralizadas pueden competir de manera realista.
Exploramos preguntas como: ¿Puede ASI ser entrenado en redes distribuidas? ¿Qué ventajas únicas ofrecen las redes de criptomonedas? ¿Y por qué la infraestructura de cómputo sin permisos podría llegar a ser tan esencial para la IA como lo es Bitcoin para las finanzas.
Un patrón común que notarás en el artículo es el crecimiento exponencial de todo lo relacionado con la IA: inversión, capacidad de cálculo y capacidades. Esto coincide con un resurgimiento en los mercados de criptomonedas y la atención prestada. Estamos muy emocionados por la intersección de estas dos grandes olas tecnológicas.
¡Hola!
En un día soleado en Memphis, Tennessee, un avión espía de hélice circulaba repetidamente sobre un edificio industrial, sus pasajeros fotografiando frenéticamente las instalaciones debajo. Esto no era una escena de espionaje de la Guerra Fría sino de 2024. El objetivo no era una instalación militar o un sitio de enriquecimiento de uranio, sino una antigua fábrica de electrodomésticos que ahora alberga uno de los superordenadores más potentes del mundo. Los pasajeros no eran agentes extranjeros, sino empleados de una empresa rival de centros de datos.
Cada pocas décadas, emerge una tecnología transformadora con el potencial de alterar de manera incuestionable la trayectoria de la civilización. Lo que sigue es una carrera entre las entidades más poderosas del mundo para ser los primeros en aprovechar esta tecnología. Las recompensas son tan inmensas y las consecuencias del fracaso tan devastadoras, que estas entidades movilizan rápidamente su arsenal completo de recursos: talento humano y capital, para dominar la tecnología.
En el siglo XX, dos tecnologías destacadas encajan en esta definición: las armas nucleares y la exploración espacial. La carrera para aprovechar estas tecnologías involucró a las naciones más poderosas. Las victorias de Estados Unidos en ambas cimentaron su estatus como superpotencia dominante en el mundo, dando paso a una era de prosperidad sin precedentes. Para los derrotados, Alemania nazi y la Unión Soviética, las consecuencias fueron devastadoras, incluso terminales.
La gigantesca planta K-25 de 44 acres en Oak Ridge, Tennessee, EE. UU., donde se produjo el uranio para la primera arma atómica ( fuente)
La victoria de América tuvo un precio enorme. El Proyecto Manhattan costó casi 2 mil millones de dólares (aproximadamente 30 mil millones ajustados por inflación) y empleó a más de 120,000 personas, una de cada mil estadounidenses. La carrera espacial demandó recursos aún mayores. El programa Apollo costó 28 mil millones de dólares en la década de 1960 (aproximadamente 300 mil millones en dinero de hoy) e involucró a más de 400,000 personas, una de cada 490 estadounidenses. En su apogeo en 1966, la NASA controlaba el 4.4% de todo el presupuesto federal de EE. UU.
El Apollo 11, justo antes del despegue en la misión a la luna ( fuente)
El lanzamiento de ChatGPT en 2022 marcó el amanecer de una nueva carrera con proporciones que alteran la civilización: la búsqueda de la superinteligencia artificial (ASI). Mientras que la IA ya está tejida en la vida diaria, gestionando feeds de redes sociales, recomendaciones de Netflix y filtros de spam de correo electrónico, la emergencia de grandes modelos de lenguaje (LLMs) promete transformar todo: la productividad humana, la creación de medios, la investigación científica y la innovación misma.
Esta vez, los contendientes no son los estados-nación (al menos, aún no), sino las corporaciones más grandes del mundo (Microsoft, Google, Meta, Amazon), las startups más populares (OpenAI, Anthropic) y el individuo más rico (Elon Musk). Mientras que las grandes tecnológicas canalizan un capital sin precedentes para construir la infraestructura necesaria para entrenar modelos cada vez más poderosos, las startups están asegurando récord mundialfinanciamiento de capital de riesgo. Elon es, bueno, haciendo cosas de Elon (el centro de datos bajo vigilancia pertenecía a su empresa, xAI).
Y luego está el resto: empresas, compañías más pequeñas y startups, que quizás no aspiren a construir una IA fuerte (ASI), pero están ansiosas por aprovechar las capacidades de vanguardia desbloqueadas por la IA para optimizar sus negocios, perturbar una industria o crear nuevas por completo. Las recompensas potenciales son tan grandes que todos se están apresurando a reclamar su parte de esta nueva economía impulsada por la inteligencia de las máquinas.
En el corazón de la revolución de la IA se encuentra su componente más esencial: la unidad de procesamiento gráfico (GPU). Originalmente diseñada para alimentar videojuegos, este chip de computadora especializado se ha convertido en la mercancía más codiciada del mundo. La demanda de GPUs es tan abrumadora que las empresas a menudo soportan listas de espera de varios mesessolo para adquirir unos pocos. Esta demanda ha catapultado a NVIDIA, su fabricante principal, a la posición de la empresa más valiosa del mundo.
Para las empresas que no pueden o no quieren comprar directamente GPUs, alquilar potencia de cómputo se ha convertido en la mejor opción. Esto ha impulsado el surgimiento de proveedores de nube de inteligencia artificial, empresas que operan sofisticados centros de datos adaptados para satisfacer las necesidades computacionales del auge de la inteligencia artificial. Sin embargo, el aumento en la demanda y su naturaleza impredecible significa que ni el precio ni la disponibilidad son una garantía.
Yo arguedque la criptomoneda funciona como una tecnología "coasiana", diseñada para "engrasar las ruedas, pavimentar los caminos y fortalecer los puentes" para que otras innovaciones disruptivas florezcan. A medida que la IA emerge como la fuerza transformadora de nuestra era, la escasez y el costo exorbitante del acceso a la GPU presentan una barrera a la innovación. Varias empresas de criptomonedas están interviniendo, con el objetivo de derribar estas barreras con incentivos basados en blockchain.
En el artículo de hoy, primero retrocedemos desde la criptografía para examinar los fundamentos de la infraestructura moderna de IA, cómo aprenden las redes neuronales, por qué las GPU se han vuelto esenciales y cómo los centros de datos de hoy están evolucionando para satisfacer las demandas computacionales sin precedentes. Luego, nos sumergimos en soluciones informáticas descentralizadas, explorando dónde pueden competir realistamente con los proveedores tradicionales, las ventajas únicas que ofrecen las redes criptográficas y por qué, aunque no nos darán IA generalizada, seguirán siendo esenciales para garantizar que los beneficios de la IA sigan siendo accesibles para todos.
Comencemos con por qué las GPUs son tan importantes en primer lugar.
Este es David, una escultura de mármol de 17 pies de altura y 6 toneladas creada por el genio del Renacimiento italiano, Miguel Ángel. Representa al héroe bíblico de la historia de David y Goliat y es considerada una obra maestra por su representación impecable de la anatomía humana y su magistral atención a la perspectiva y el detalle.
Como todas las esculturas de mármol, David comenzó como una enorme losa de mármol de Carrara en bruto. Para llegar a su forma final, majestuosa, Miguel Ángel tuvo que picar metódicamente la piedra. Comenzando con trazos amplios y audaces para establecer la forma humana básica, avanzó hacia detalles cada vez más finos: la curva de un músculo, la tensión en una vena, la sutil expresión de determinación en los ojos. A Miguel Ángel le llevó tres años liberar a David de la piedra.
Pero, ¿por qué discutir una figura de mármol de 500 años en un artículo sobre IA?
Al igual que David, cada red neuronal comienza como un potencial puro: una colección de nodos inicializados con números aleatorios (pesos), tan informe como ese enorme bloque de mármol de Carrara.
Este modelo en bruto se alimenta repetidamente con datos de entrenamiento: innumerables instancias de entradas emparejadas con sus salidas correctas. Cada punto de datos que pasa a través de la red desencadena miles de cálculos. En cada nodo (neurona), las conexiones entrantes multiplican el valor de entrada por el peso de la conexión, suman estos productos y transforman el resultado a través de una "función de activación" que determina la fuerza de disparo de la neurona.
Así como Michelangelo daría un paso atrás, evaluaría su trabajo y corregiría el rumbo, las redes neuronales pasan por un proceso de refinamiento. Después de cada paso hacia adelante, la red compara su salida con la respuesta correcta y calcula su margen de error. A través de un proceso llamado retropropagación, mide cuánto contribuyó cada conexión al error y, al igual que los golpes del cincel de Michelangelo, realiza ajustes en sus valores. Si una conexión conduce a una predicción incorrecta, su influencia disminuye. Si ayuda a llegar a la respuesta correcta, su influencia se fortalece.
Cuando todos los datos pasan por la red (completando un paso hacia adelante y hacia atrás por punto de datos), marca el final de una 'epoca'. Este proceso se repite varias veces, con cada paso refinando la comprensión de la red. Durante las primeras épocas, los cambios de peso son drásticos mientras la red hace ajustes amplios, como los primeros golpes fuertes de cincel. En épocas posteriores, los cambios se vuelven más sutiles, afinando las conexiones para un rendimiento óptimo, al igual que los delicados toques finales resaltaron los detalles de David.
Finalmente, después de miles o millones de iteraciones, el modelo entrenado emerge. Como David, orgulloso en su forma final, la red neuronal se transforma del ruido aleatorio en un sistema capaz de reconocer patrones, hacer predicciones, generar imágenes de gatos montando scooters o permitir que las computadoras comprendan y respondan en lenguaje humano.
Michelangelo, trabajando solo en David, solo podía hacer un golpe de cincel a la vez, cada uno requiriendo cálculos precisos de ángulo, fuerza y posición. Esta precisión meticulosa es la razón por la que le tomó tres años incansables completar su obra maestra. Pero imagina a miles de escultores igualmente hábiles trabajando en David en perfecta coordinación: un equipo en los rizos del cabello, otro en los músculos del torso y cientos más en los detalles intrincados de la cara, las manos y los pies. Tal esfuerzo paralelo comprimiría esos tres años en pocos días.
Del mismo modo, aunque las CPUs son potentes y precisas, solo pueden realizar un cálculo a la vez. Entrenar una red neuronal no requiere un solo cálculo complejo sino cientos de millones de simples, principalmente multiplicaciones y sumas en cada nodo. Por ejemplo, la red neuronal de muestra mencionada anteriormente, con solo 18 nodos y alrededor de 100 conexiones (parámetros), puede ser entrenada en una CPU en un plazo razonable.
Sin embargo, los modelos más potentes de hoy en día, como el GPT-4 de OpenAI, tienen 1,8 billones de parámetros. Incluso los modelos modernos más pequeños contienen al menos mil millones de parámetros. Entrenar estos modelos uno a la vez llevaría siglos. Aquí es donde las GPUs destacan: pueden realizar una gran cantidad de cálculos matemáticos simples simultáneamente, lo que las hace ideales para procesar múltiples nodos de redes neuronales en paralelo.
Las GPU modernas son increíblemente potentes. La última GPU B200 de NVIDIA, por ejemplo, consta de más de 200 mil millones de transistores y admite 2,250 billones de cálculos paralelos por segundo (2,250 TFLOPS). Una sola GPU B200 puede manejar modelos con hasta 740 mil millones de parámetros. Estas máquinas representan hazañas de la ingeniería moderna, lo que explica por qué NVIDIA, vendiendo cada unidad a $40,000, ha visto cómo su precio de las acciones aumenta más del 2,500% en cinco años.
Jensen Huang presentando el NVIDIA B200
Sin embargo, incluso estas formidables máquinas no pueden entrenar modelos de IA solas. Recuerde que durante el entrenamiento, cada instancia de datos debe pasar por el modelo en un ciclo hacia adelante y hacia atrás individualmente. Los modelos de lenguaje grandes modernos (LLMs) se entrenan en conjuntos de datos que abarcan la totalidad de internet. GPT-4, por ejemplo, procesó un estimado de 12 billones de tokens (aproximadamente 9 billones de palabras), y se espera que la próxima generación de modelos maneje hasta 100 billones de tokens. Utilizar una sola GPU para tal volumen inmenso de datos todavía llevaría siglos.
La solución radica en agregar otra capa de paralelismo, creando clústeres de GPU donde las tareas de entrenamiento se distribuyen entre numerosas GPU que trabajan como un sistema unificado. Las cargas de trabajo de entrenamiento de modelos se pueden paralelizar de tres maneras:
Paralelismo de datos: múltiples GPUs mantienen una copia completa del modelo de red neuronal mientras procesan diferentes partes de los datos de entrenamiento. Cada GPU procesa su lote de datos asignado de forma independiente antes de sincronizarse periódicamente con todas las demás GPUs. En este período de sincronización, las GPUs se comunican entre sí para encontrar un promedio colectivo de sus pesos y luego actualizar sus pesos individuales para que sean todos idénticos. En consecuencia, continúan entrenando con su lote de datos individualmente antes de que llegue el momento de sincronizarse nuevamente.
A medida que los modelos crecen, una sola copia puede volverse demasiado grande para caber en una sola GPU. Por ejemplo, la última GPU B200 solo puede contener 740 mil millones de parámetros, mientras que GPT-4 es un modelo de 1,8 billones de parámetros. El paralelismo de datos entre las GPU individuales no funciona en este caso.
Paralelismo de Tensor: Este enfoque aborda la restricción de memoria distribuyendo el trabajo y los pesos de cada capa de modelo en múltiples GPU. Las GPU intercambian cálculos intermedios con todo el clúster durante cada paso de propagación hacia adelante y hacia atrás. Estas GPU se agrupan típicamente en servidores de ocho unidades, conectados a través de NVLink, la interconexión directa GPU a GPU de alta velocidad de NVIDIA. Esta configuración requiere conexiones de alta velocidad de banda ancha (hasta 400 Gb/s) y baja latencia entre las GPU. Un clúster de tensores funciona efectivamente como una sola GPU masiva.
Paralelismo de canalización: Este método divide el modelo entre múltiples GPUs, con cada GPU manejando capas específicas. Los datos fluyen a través de estas GPUs de forma secuencial, como una carrera de relevos donde cada corredor (GPU) gestiona su parte antes de pasar el testigo. El paralelismo de canalización es particularmente efectivo para conectar diferentes servidores de 8 GPUs dentro de un centro de datos, utilizando redes InfiniBand de alta velocidad para la comunicación entre servidores. Si bien sus requisitos de comunicación superan al paralelismo de datos, siguen siendo inferiores a los intercambios intensivos de GPU a GPU del paralelismo tensorial.
La escala de los clústeres modernos es notable. GPT-4, con 1,8 billones de parámetros y 120 capas, requirió 25.000 GPU A100 para el entrenamiento. El proceso llevó tres meses y costó más de $60 millones. El A100 es dos generaciones anterior; utilizando las GPU B200 de hoy en día solo se necesitarían alrededor de 8.000 unidades y 20 días de entrenamiento. Solo otra demostración de lo rápido que avanza la IA.
Pero la clase de modelos GPT-4 son juguetes viejos ahora. La formación para la próxima generación de modelos avanzados está en curso en centros de datos que albergan grupos de 100.000 B100 o H100 GPUs (estos últimos siendo una generación anterior). Estos grupos, que representan más de $4 mil millones en gastos de capital de GPU solamente, son los superordenadores más potentes de la humanidad, entregando al menos cuatro veces la capacidad de cómputo bruto de los propiedad del gobierno.
Además de asegurar la capacidad de cómputo bruta, los aspirantes a ASI se enfrentan a otro problema al intentar configurar estos clústeres: la electricidad. Cada una de estas GPUs consume 700W de energía. Cuando se combinan 100,000 de ellas, todo el clúster (incluido el hardware de soporte) consume más de 150MW de energía. Para poner esto en perspectiva, este consumo equivale al de una ciudad de 300,000 personas, comparable a Nueva Orleans o Zurich.
La locura no se detiene aquí. La mayoría de los aspirantes a ASI creen que el Leyes de escalado LLM-que sugieren que el rendimiento del modelo mejora predeciblemente con el aumento del tamaño del modelo, el tamaño del conjunto de datos y el cálculo de entrenamiento- seguirá siendo cierto. Los planes ya están en marcha para ejecutar entrenamientos de modelos aún más potentes. Para 2025, se proyecta que el costo de cada clúster de entrenamiento supere los $10 mil millones. Para 2027, más de $100 mil millones. A medida que estas cifras se acercan a la inversión del gobierno de EE. UU. en los programas Apolo, queda claro por qué lograr la IA fuerte ha surgido como la carrera definitoria de nuestra era.
Las métricas para los modelos que comienzan con GPT-5 son estimaciones
A medida que el consumo de electricidad crece proporcionalmente con el tamaño de los clústeres, las ejecuciones de entrenamiento del próximo año requerirán más de 1GW de potencia. El año siguiente, 10GW o más. Sin indicaciones de que esta expansión se frene, se espera que los centros de datos consuman aproximadamente 4.5% de la generación mundial para 2030. Las redes eléctricas existentes, ya luchando con las demandas del modelo actual, no puede generar suficiente energía para futuros clústeres. Esto plantea una pregunta crítica: ¿de dónde vendrá esta energía? Big Tech está adoptando un enfoque de dos puntas.
A largo plazo, la única solución viable es que los aspirantes a ASI generen su propia electricidad. Dado sus compromisos climáticos, esta energía debe provenir de fuentes renovables. La energía nuclear se destaca como la solución principal. Amazonrecientemente compradoun campus de centro de datos alimentado por una planta de energía nuclear por $650 millones. Microsoftha contratadoun jefe de tecnologías nucleares y estáreviviendo la histórica planta de Three Mile Island. Google tiene adquirió múltiples reactores nucleares pequeñosde Kairos Power de California. Sam Altman de OpenAI ha respaldado startups de energía comoHelion, Exowatt, y Oklo.
Microsoft está reabriendo la planta nuclear de Three Mile Island (fuente de imagen)
Mientras se siembran las semillas de la energía nuclear ahora, los frutos (o poder) tardarán varios años en dar. ¿Qué pasa con los requisitos de energía para la generación inmediata de modelos? La solución provisional implica la formación distribuida en varios centros de datos. En lugar de concentrar grandes demandas de energía en un solo lugar, empresas como Microsoft y Google están distribuyendo sus clústeres de formación en varios sitios.
El desafío, por supuesto, es lograr que estos sistemas distribuidos trabajen juntos de manera efectiva. Incluso a la velocidad de la luz, los datos tardan aproximadamente 43ms en hacer un viaje de ida y vuelta desde la costa este hasta la costa oeste de Estados Unidos, una eternidad en términos informáticos. Además, si incluso un chip se retrasa, digamos, un 10%, hace que toda la ejecución del entrenamiento se ralentice en el mismo margen.
La solución radica en conectar centros de datos en múltiples sitios con redes de fibra óptica de alta velocidad y aplicar una combinación de las técnicas de paralelismo discutidas anteriormente para sincronizar sus operaciones. El paralelismo tensorial se aplica a las GPU dentro de cada servidor, lo que les permite funcionar como una sola unidad. El paralelismo de tuberías, con sus menores demandas de red, se emplea para vincular servidores dentro del mismo centro de datos. Por último, los centros de datos situados en diferentes ubicaciones (denominados "islas") sincronizan su información periódicamente mediante el paralelismo de datos.
Anteriormente, señalamos que el paralelismo de datos resulta ineficaz para las GPU individuales porque no pueden acomodar modelos grandes de forma independiente. Sin embargo, esta dinámica cambia cuando paralelizamos islas, cada una de las cuales contiene miles de GPU, en lugar de unidades individuales. Los datos de entrenamiento se distribuyen en cada isla, y estas islas se sincronizan periódicamente a través de las conexiones de fibra óptica relativamente más lentas (en comparación con NVLink e Infiniband).
Cambiemos nuestro enfoque de la formación y las GPUs a los propios centros de datos.
Hace veinte años, Amazon lanzó Amazon Web Services (AWS), una de las empresas más transformadoras de la historia, y creó una industria completamente nueva conocida como computación en la nube. Los líderes actuales en la nube (Amazon, Microsoft, Google y Oracle) disfrutan de un cómodo dominio, con unos ingresos anuales combinados de cerca de 300.000 millones de dólares con márgenes del 30-40%. Ahora, la aparición de la IA ha creado nuevas oportunidades en un mercado que ha permanecido en gran medida oligopólico durante años.
Los requisitos físicos, la complejidad técnica y la economía de los centros de datos de IA intensivos en GPU difieren drásticamente de sus contrapartes tradicionales.
Hablamos antes de lo hambrientas de energía que son las GPUs. Esto lleva a que los centros de datos de IA sean mucho más densos en energía y, en consecuencia, produzcan más calor. Mientras que los centros de datos tradicionales utilizan ventiladores gigantes (refrigeración por aire) para disipar el calor, este enfoque no es suficiente ni viable financieramente para las instalaciones de IA. En cambio, los centros de datos de IA están adoptando sistemas de refrigeración líquida donde los bloques de agua se conectan directamente a las GPUs y otros componentes calientes para disipar el calor de manera más eficiente y silenciosa. (Las GPUs B200 vienen con esta arquitectura incorporada). El soporte de sistemas de refrigeración líquida requiere agregar grandes torres de enfriamiento, una instalación centralizada de sistema de agua y tuberías para transportar agua hacia y desde todas las GPUs, una modificación fundamental a la infraestructura del centro de datos.
Además del mayor consumo absoluto de energía, los centros de datos de IA tienen requisitos de carga distintos. Mientras que los centros de datos tradicionales mantienen un consumo de energía predecible, los patrones de uso de energía de las cargas de trabajo de IA son mucho más volátiles. Esta volatilidad ocurre porque las GPU alternan periódicamente entre funcionar al 100% de capacidad y ralentizarse casi por completo a medida que el entrenamiento alcanza puntos de control, donde los pesos se almacenan en la memoria o, como vimos antes, se sincronizan con otras islas. Los centros de datos de IA requieren una infraestructura de energía especializada para gestionar estas fluctuaciones de carga.
La creación de clústeres de GPU es mucho más difícil que la creación de nubes informáticas normales. Las GPU necesitan comunicarse entre sí muy rápidamente. Para que esto suceda, deben estar muy juntos. Una instalación típica de IA necesita más de 200.000 cables especiales llamados conexiones InfiniBand. Estos cables permiten que las GPU se comuniquen. Si un solo cable deja de funcionar, todo el sistema se apaga. El proceso de entrenamiento no puede continuar hasta que se arregle ese cable.
Estos requisitos de infraestructura hacen casi imposible adaptar los centros de datos tradicionales con GPU de alto rendimiento para convertirlos en preparados para la IA. Una actualización así requeriría una reestructuración estructural casi completa. En su lugar, las empresas están construyendo nuevos centros de datos diseñados específicamente para la IA desde cero, con diferentes organizaciones persiguiendo esto en diferentes escalas.
A la vanguardia, las principales empresas tecnológicas están compitiendo para construir sus propios centros de datos de IA. Meta está invirtiendo fuertemente en instalaciones únicamente para su propio desarrollo de IA, tratándolo como una inversión de capital directa, ya que no ofrece servicios en la nube. Microsoft está construyendo centros igualmente masivos para impulsar sus propios proyectos de IA y servir a clientes clave como OpenAI. Oracle también ha entrado en este espacio de forma agresiva, asegurando a OpenAI como un cliente notable. Amazon continúa expandiendo su infraestructura, particularmente para apoyar a las empresas emergentes de IA como Anthropic. La xAI de Elon Musk, que no quería depender de otra empresa, optó por construir su propio clúster de 100.000 GPU.
Dentro del centro de datos xAI's 100,000 H100 GPU (fuente)
Junto a los incumbentes, están surgiendo los “neoclouds” - proveedores de nube especializados que se enfocan exclusivamente en la computación de GPU para cargas de trabajo de IA. Estos neoclouds se dividen en dos categorías distintas según su escala.
Grandes proveedores de neocloud, incluyendo CoreWeave, Crusoe, y LLama Labs, operar clústeres de más de 2.000 GPUs. Se diferencian de los servicios en la nube tradicionales de dos formas: ofreciendo soluciones de infraestructura personalizadas en lugar de paquetes estandarizados y requiriendo compromisos a largo plazo por parte de los clientes en lugar de acuerdos de pago por uso.
Su modelo de negocio aprovecha estos acuerdos a largo plazo y la solvencia de los clientes para asegurar la financiación de la infraestructura. Los ingresos proceden de las primas cobradas por los servicios especializados y de los beneficios derivados de la diferencia entre los bajos costes de financiación y los pagos a los clientes.
Así es como funciona típicamente este tipo de arreglos: un proveedor de neocloud asegura un contrato de tres años con una startup de IA bien financiada por 10,000 GPUs H100 a $40 millones mensuales. Utilizando este flujo de ingresos garantizado de $1.44 mil millones, el proveedor asegura un financiamiento bancario favorable (con un interés del 6%) para comprar e instalar infraestructura por valor de $700 millones. Los ingresos mensuales de $40 millones cubren $10 millones en costos operativos y $20 millones en pagos de préstamos, generando $10 millones en ganancias mensuales, mientras que la startup recibe una potencia informática dedicada y personalizada.
Este modelo requiere una selección excepcionalmente cuidadosa de los clientes. Los proveedores suelen buscar empresas con grandes reservas de efectivo o un fuerte respaldo de riesgo, a menudo valoraciones de 500 millones de dólares o más.
Las pequeñas neonubes ofrecen clústeres de GPU de 2.000 o menos y atienden a un segmento separado del mercado de la IA: las pequeñas y medianas empresas emergentes. Estas empresas entrenan modelos más pequeños (hasta 70 mil millones de parámetros) o ajustan los de código abierto. (El ajuste fino es el proceso de adaptar un modelo base a casos de uso específicos). Ambas cargas de trabajo requieren cómputo moderado pero dedicado durante períodos más cortos.
Estos proveedores ofrecen computación bajo demanda con tarifas por hora para acceso ininterrumpido a clústeres de duración fija. Si bien esto cuesta más que los contratos a largo plazo, brinda a las startups la flexibilidad para experimentar sin comprometerse con acuerdos de varios millones de dólares.
Finalmente, aparte de los incumbentes en la nube y los proveedores de neocloud, tenemos los intermediarios del espacio de la infraestructura de IA: plataformas y agregadores. Estos intermediarios no poseen infraestructura de GPU, sino que conectan a los propietarios de recursos informáticos con aquellos que los necesitan.
Los proveedores de plataforma como HydraHost y Fluidstacksirve como el Shopify de la computación GPU. Así como Shopify permite a los comerciantes lanzar tiendas en línea sin necesidad de construir infraestructura de comercio electrónico, estas plataformas permiten a los operadores de centros de datos y a los propietarios de GPU ofrecer servicios informáticos sin necesidad de desarrollar sus propias interfaces de clientes. Proporcionan un paquete técnico completo para administrar un negocio de computación GPU, que incluye herramientas de gestión de infraestructuras, sistemas de aprovisionamiento de clientes y soluciones de facturación.
Los agregadores de mercado como Vast.aifuncionar como el Amazon de la GPU mundo. Crean un mercado que combina diversas ofertas de cómputo de varios proveedores, que van desde tarjetas RTX de consumo hasta GPUs H100 profesionales. Los propietarios de GPU enumeran sus recursos con métricas de rendimiento detalladas y calificaciones de confiabilidad, mientras que los clientes compran tiempo de cómputo a través de una plataforma de autoservicio.
Hasta ahora, nuestra discusión se ha centrado en la capacitación (o ajuste fino) de modelos. Sin embargo, una vez capacitado, un modelo debe implementarse para servir a los usuarios finales, un proceso llamado inferencia. Cada vez que chatea con ChatGPT, está utilizando GPUs que ejecutan cargas de trabajo de inferencia que toman su entrada y generan la respuesta del modelo. Volvamos a discutir estatuas de mármol por un minuto.
Este también es David, no el original de Miguel Ángel, sino una réplica de yeso encargada por la reina Victoria en 1857 para el Museo Victoria y Alberto de Londres. Mientras que Miguel Ángel pasó tres años agotadores tallando cuidadosamente el mármol para crear el original en Florencia, esta réplica de yeso fue hecha a partir de un molde directo de la estatua, reproduciendo perfectamente cada curva, ángulo y detalle que Miguel Ángel había elaborado. El trabajo creativo intensivo sucedió una sola vez. Después, se trató de replicar fielmente estas características. Hoy en día, las réplicas de David aparecen en todas partes, desde los pasillos de los museos hasta los patios de los casinos de Las Vegas.
Así es exactamente cómo funciona la inferencia en IA. Entrenar un modelo de lenguaje grande es como el proceso escultórico original de Miguel Ángel—intensivo computacionalmente, que consume tiempo y recursos, ya que el modelo aprende gradualmente la forma correcta del lenguaje a través de millones de ajustes pequeños. Pero usar el modelo entrenado—la inferencia—es más como crear una réplica. Cuando chateas con ChatGPT, no estás enseñándole el lenguaje desde cero, sino que estás usando una copia de un modelo cuyos parámetros (como las curvas y ángulos precisos de David) ya han sido perfeccionados.
Las cargas de trabajo de inferencia difieren fundamentalmente del entrenamiento. Si bien el entrenamiento requiere clústeres grandes y densos de las GPU más recientes, como H100, para manejar cálculos intensivos, la inferencia puede ejecutarse en servidores de GPU únicos que utilizan hardware más antiguo como A100 o incluso tarjetas de consumo, lo que la hace significativamente más rentable. Dicho esto, las cargas de trabajo de inferencia tienen sus propias demandas únicas:
Estas características hacen que las cargas de trabajo de inferencia sean ideales para los modelos de precios de Spot. Bajo el modelo de precios de Spot, los recursos de GPU están disponibles con descuentos significativos, a menudo un 30-50% por debajo de las tarifas bajo demanda, con la comprensión de que el servicio puede pausarse cuando los clientes de mayor prioridad necesiten recursos. Este modelo se adapta a la inferencia porque la implementación redundante permite que las cargas de trabajo se desplacen rápidamente a las GPUs disponibles si se interrumpe.
En este contexto de GPU y computación en la nube de IA, ahora estamos en posición de comenzar a explorar dónde encaja la criptografía en todo esto. Vamos (finalmente) a ello.
Los proyectos e informes a menudo citan la observación de Peter Thiel de que "la IA está centralizando, el cripto está descentralizando" al discutir el papel del cripto en el entrenamiento de la IA. Si bien la afirmación de Thiel es indudablemente cierta, acabamos de ver pruebas abundantes de la clara ventaja de las grandes tecnológicas en el entrenamiento de IA potente; a menudo se malinterpreta para sugerir que el cripto y los ordenadores descentralizados ofrecen la solución principal para contrarrestar la influencia de las grandes tecnológicas.
Tales afirmaciones hacen eco de exageraciones anteriores sobre el potencial de la criptografía para revolucionar las redes sociales, los juegos y numerosas otras industrias. No solo son contraproducentes sino que, como argumentaré en breve, son poco realistas, al menos a corto plazo.
En cambio, voy a adoptar un enfoque más pragmático. Voy a suponer que una startup de IA que busca computación no se preocupa por los principios de la descentralización o la oposición ideológica a las grandes empresas tecnológicas. Más bien, tienen un problema: quieren acceder a una computación GPU confiable al costo más bajo posible. Si un proyecto criptográfico puede proporcionar una mejor solución a este problema que las alternativas no criptográficas, lo usarán.
Para ello, primero entendamos con quiénes compiten los proyectos de criptomonedas. Anteriormente, discutimos las diferentes categorías de proveedores de servicios en la nube de IA: las grandes empresas tecnológicas y los proveedores de hiperescala, las grandes neonubes, las pequeñas neonubes, los proveedores de plataformas y los mercados.
La tesis fundamental detrás de la computación descentralizada (como todos los proyectos DePIN) es que el mercado actual de computación opera de manera ineficiente. La demanda de GPU sigue siendo excepcionalmente alta, mientras que la oferta está fragmentada y subutilizada en centros de datos globales y hogares individuales. La mayoría de los proyectos en este sector compiten directamente con los mercados al agregar esta oferta dispersa para reducir las ineficiencias.
Con eso establecido, veamos cómo estos proyectos (y los mercados informáticos en general) pueden ayudar con diferentes cargas de trabajo de IA: entrenamiento, ajuste fino e inferencia.
Lo primero es lo primero. No, ASI no va a ser entrenado en una red global de GPUs descentralizadas. Al menos, no en la trayectoria actual de la IA. Aquí está la razón.
Anteriormente, discutimos lo grandes que se están volviendo los clústeres de modelos base. Necesitas 100,000 de las GPUs más potentes del mundo solo para comenzar a competir. Este número solo aumenta cada año que pasa. Para 2026, se espera que el costo de una ejecución de entrenamiento supere los $100 mil millones de dólares, lo que requeriría tal vez un millón de GPUs o más.
Solo las grandes empresas de tecnología, respaldadas por importantes neonubes y asociaciones directas con Nvidia, pueden ensamblar grupos de esta magnitud. Recuerda, estamos en una carrera por la IA generalizada, y todos los participantes están altamente motivados y capitalizados. Si hay un suministro adicional de estas muchas GPUs (que no lo hay), serán los primeros en adquirirlas.
Incluso si un proyecto de cripto lograra de alguna manera la computación necesaria, dos obstáculos fundamentales impiden el desarrollo de ASI descentralizada:
En primer lugar, las GPUs aún necesitan estar conectadas en grandes grupos para funcionar de manera efectiva. Incluso si estos grupos están divididos entre islas en las ciudades, tendrán que estar conectados por líneas de fibra óptica dedicadas. Ninguna de estas opciones es posible en un entorno descentralizado. Más allá de la adquisición de GPUs, el establecimiento de centros de datos listos para la inteligencia artificial requiere una planificación meticulosa, que suele ser un proceso de uno o dos años. (xAI lo hizo en solo 122 días, pero es poco probable que Elon lance un token en el futuro cercano.)
En segundo lugar, simplemente crear un centro de datos de IA no es suficiente para dar a luz a una IA superinteligente. Como fundador de Anthropic, Dario Amodei recientemente explicado, escalar en IA es análogo a una reacción química. Así como una reacción química requiere múltiples reactivos en proporciones precisas para proceder, el éxito en la escalabilidad de la IA depende de tres ingredientes esenciales que crecen en conjunto: redes más grandes, tiempos de entrenamiento más largos y conjuntos de datos más grandes. Si se escala un componente sin los demás, el proceso se detiene.
Incluso si logramos de alguna manera acumular tanto la capacidad de cálculo como hacer que los clústeres trabajen juntos, todavía necesitamos terabytes de datos de alta calidad para que el modelo entrenado sea bueno. Sin las fuentes de datos propietarias de las grandes empresas tecnológicas, el capital para firmar acuerdos de varios millones de dólares con foros en línea y medios de comunicación, o modelos existentes para generar datos sintéticos, adquirir datos de entrenamiento adecuados es imposible.
En los últimos tiempos ha habido especulaciones de que las leyes de escala puedan alcanzar un punto máximo, con las LLMs posiblemente alcanzando techos de rendimiento. Algunos interpretan esto como una oportunidad para el desarrollo de IA descentralizada. Sin embargo, esto pasa por alto un factor crucial: la concentración de talento. Las grandes empresas de tecnología de hoy en día y los laboratorios de IA albergan a los investigadores más destacados del mundo. Cualquier avance alternativo en el camino hacia la IA generalmente inteligente probablemente surgirá de estos centros. Dadas las condiciones competitivas, estos descubrimientos se mantendrían en secreto.
Teniendo en cuenta todos estos argumentos, estoy 99,99% seguro de que el entrenamiento de ASI, o incluso los modelos más poderosos del mundo, no serán entrenados en un proyecto de cómputo descentralizado. En ese caso, ¿qué modelos podría ayudar a entrenar la criptomoneda?
Para que los modelos puedan entrenarse en clústeres de GPU separados ubicados en diferentes ubicaciones geográficas, debemos implementar el paralelismo de datos entre ellos. (Recuerde que el paralelismo de datos es cómo las diferentes islas de GPU, cada una trabajando en fragmentos separados de los datos de entrenamiento, se sincronizan entre sí). Cuanto más grande sea el modelo que se está entrenando, mayor será la cantidad de datos que necesita ser intercambiada entre estas islas. Como discutimos, para modelos de vanguardia con más de un billón de parámetros, el ancho de banda necesario es lo suficientemente grande como para requerir conexiones de fibra óptica dedicadas.
Sin embargo, para los modelos más pequeños, los requisitos de ancho de banda disminuyen proporcionalmente. Los recientes avances en algoritmos de entrenamiento de baja comunicación, en particular en la sincronización retardada, han creado oportunidades prometedoras para entrenar modelos pequeños y medianos de manera descentralizada. Dos equipos están liderando estos esfuerzos experimentales.
Investigación de Nous es una empresa aceleradora de IA y un actor líder en el desarrollo de IA de código abierto. Son más conocidos por su serie Hermes de modelos de lenguaje y proyectos innovadores como World Sim. A principios de este año, operaron una subred BitTensor de clasificación LLM durante unos meses. Se han sumergido en la computación descentralizada al liberar el DisTrO(Proyecto de entrenamiento distribuido a través de Internet), donde lograron entrenar con éxito un modelo Llama-2 de 1.2B parámetros al tiempo que lograron una reducción de 857 veces en los requisitos de ancho de banda entre las GPU.
El informe DisTrO de Nous Research
Prime Intellect, una startup que desarrolla infraestructura para la inteligencia artificial descentralizada a gran escala, tiene como objetivo agregar recursos informáticos globales y permitir el entrenamiento colaborativo de modelos de última generación a través de sistemas distribuidos. Su Marco de trabajo OpenDiLoCo(implementando DeepMind’sMétodo distribuido de baja comunicación) ha entrenado con éxito un modelo de mil millones de parámetros en dos continentes y tres países mientras mantenía una utilización de computación del 90-95%.
Pero, ¿cómo funcionan estas ejecuciones de entrenamiento descentralizadas?
El paralelismo de datos tradicional requiere que las GPUs compartan y promedien sus pesos después de cada paso de entrenamiento, lo cual es imposible a través de conexiones a internet. En cambio, estos proyectos permiten que cada 'isla' de GPUs se entrene de forma independiente durante cientos de pasos antes de sincronizarse. Piensa en ello como equipos de investigación independientes trabajando en el mismo proyecto: en lugar de estar constantemente consultándose entre sí, progresan significativamente de forma independiente antes de compartir sus descubrimientos.
DisTrO y OpenDiLoCo solo se sincronizan cada 500 pasos, utilizando un enfoque de doble optimizador:
Cuando se sincronizan, en lugar de compartir todos los pesos, comparten un 'pseudo-gradiente', esencialmente la diferencia entre sus pesos actuales y los pesos de la última sincronización. Esto es notablemente eficiente, como compartir solo lo que ha cambiado en un documento en lugar de enviar todo el documento cada vez.
INTELECTO-1, una implementación práctica de OpenDiLoCo de Prime Intellect, está impulsando este enfoque aún más mediante el entrenamiento de un modelo de parámetros 10B, el mayor esfuerzo de entrenamiento descentralizado hasta la fecha. Han añadido optimizaciones clave como:
INTELLECT-1, entrenado por más de 20 clusters de GPU distribuidos por todo el mundo, recientemente completóEntrenamiento previo y pronto se lanzará como un modelo totalmente de código abierto.
Tablero de entrenamiento INTELLECT-1
Equipos como Macrocosmosestán utilizando algoritmos similares aentrenar modelosen el ecosistema de Bittensor.
Si estos algoritmos de entrenamiento descentralizados continúan mejorando, podrían ser capaces de soportar modelos de hasta 100 mil millones de parámetros con la próxima generación de GPUs. Incluso los modelos de este tamaño pueden ser muy útiles para una amplia variedad de casos de uso:
El ajuste fino es el proceso de tomar un modelo de base pre-entrenado (generalmente uno de código abierto de Meta, Mistral o Alibaba) y entrenarlo aún más en un conjunto de datos específico para adaptarlo a tareas o dominios particulares. Esto requiere significativamente menos cómputo que el entrenamiento desde cero, ya que el modelo ya ha aprendido patrones de lenguaje generales y solo necesita ajustar sus pesos para el nuevo dominio.
Calcular los requisitos para ajustar la escala según el tamaño del modelo. Suponiendo que se entrena en un H100:
Dadas estas especificaciones, el ajuste fino no requiere los complejos algoritmos de entrenamiento distribuido previamente discutidos. El modelo bajo demanda, donde los desarrolladores alquilan clusters de GPU durante períodos cortos y concentrados, proporciona un soporte adecuado. Los mercados de computación descentralizada con una robusta disponibilidad de GPU están idealmente posicionados para manejar estas cargas de trabajo.
La inferencia es donde los mercados informáticos descentralizados tienen el camino más claro para encajar en el mercado. Irónicamente, este es el flujo de trabajo menos discutido en el contexto del entrenamiento descentralizado. Esto se debe a dos factores: la inferencia carece del atractivo de 100,000 ejecuciones de entrenamiento de modelos GPU 'dios', y en parte debido a la fase actual de la revolución de la IA.
A partir de hoy, la mayoría de la computación se destina efectivamente al entrenamiento. La carrera hacia la IA generalizada está generando grandes inversiones iniciales en infraestructura de entrenamiento. Sin embargo, este equilibrio inevitablemente cambia a medida que las aplicaciones de IA pasan de la investigación a la producción. Para que un modelo de negocio basado en IA sea sostenible, los ingresos generados por la inferencia deben superar los costos tanto del entrenamiento como de la inferencia combinados. Si bien el entrenamiento de GPT-4 fue enormemente costoso, eso fue un costo único. Los gastos continuos de computación y el camino hacia la rentabilidad de OpenAI se basan en atender miles de millones de solicitudes de inferencia de clientes de pago.
Los mercados de computación, descentralizados o de otra manera, por su naturaleza de agregar una variedad de modelos de GPU (antiguos y nuevos) de todo el mundo, se encuentran en una posición única para servir cargas de trabajo de inferencia.
Los mercados informáticos, ya sean descentralizados o tradicionales, sobresalen naturalmente en cargas de trabajo de inferencia al agregar diversos modelos de GPU (tanto actuales como antiguos) a nivel mundial. Sus ventajas inherentes se alinean perfectamente con los requisitos de inferencia: distribución geográfica amplia, tiempo de actividad constante, redundancia del sistema y compatibilidad entre generaciones de GPU.
Hemos discutido los diferentes flujos de trabajo que la informática descentralizada puede y no puede ayudar. Ahora, debemos responder otra pregunta importante: ¿por qué un desarrollador elegiría asegurar la informática de un proveedor descentralizado en lugar de uno centralizado? ¿Qué ventajas convincentes ofrecen las soluciones descentralizadas?
Las stablecoins lograron adaptarse al mercado al ofrecer una alternativa superior a los pagos transfronterizos tradicionales. Un factor importante es que las stablecoins son simplemente mucho más baratas. De manera similar, el factor más importante que determina la elección de un proveedor de servicios en la nube para desarrolladores de IA es el costo. Para que los proveedores de cómputo descentralizado compitan de manera efectiva, primero deben ofrecer precios superiores.
Un mercado informático, como todos los mercados, es un negocio de efectos de red. Cuanto mayor sea la oferta de GPU en una plataforma, mayor será la liquidez y la disponibilidad para los clientes, lo que a su vez atrae más demanda. A medida que crece la demanda, esto incentiva a más propietarios de GPU a unirse a la red, creando un círculo virtuoso. El aumento de la oferta también permite precios más competitivos a través de una mejor combinación y un menor tiempo de inactividad. Cuando los clientes pueden encontrar constantemente el proceso que necesitan a precios atractivos, es más probable que creen dependencias técnicas duraderas en la plataforma, lo que fortalece aún más los efectos de red.
Esta dinámica es particularmente poderosa en la inferencia, donde la distribución geográfica del suministro puede mejorar realmente la oferta del producto al reducir la latencia para los usuarios finales. El primer mercado en lograr esta rueda de liquidez a gran escala tendrá una ventaja competitiva significativa, ya que tanto los proveedores como los clientes enfrentan costos de cambio una vez que se han integrado con las herramientas y flujos de trabajo de una plataforma.
El efecto de red del mercado de GPU funciona como un volante
En tales mercados donde el ganador se lo lleva todo, Arranque de la redy alcanzar la velocidad de escape es la fase más crítica. Aquí, las criptomonedas proporcionan a los proyectos de computación descentralizada una herramienta muy poderosa que sus competidores centralizados simplemente no poseen: incentivos de tokens.
Los mecanismos pueden ser sencillos pero poderosos. El protocolo primero lanzaría un token que incluye un programa de recompensas inflacionarias, posiblemente distribuyendo asignaciones iniciales a los primeros contribuyentes a través de airdrops. Estas emisiones de tokens servirían como la herramienta principal para arrancar ambos lados del mercado.
Para los proveedores de GPU, la estructura de recompensas debe diseñarse cuidadosamente para dar forma al comportamiento del lado de la oferta. Los proveedores ganarían tokens proporcionales a sus tasas de computación y utilización contribuidas, pero el sistema debería ir más allá de las simples recompensas lineales. El protocolo podría implementar multiplicadores dinámicos de recompensas para abordar los desequilibrios geográficos o de tipo de hardware, de manera similar a cómo Uber utiliza el aumento de precios para incentivar a los conductores en áreas de alta demanda.
Un proveedor podría ganar 1.5x recompensas por ofrecer cálculos en regiones desatendidas o 2x recompensas por proporcionar tipos de GPU temporalmente escasos. Además, escalonar el sistema de recompensas en función de las tasas de utilización consistentes alentaría a los proveedores a mantener una disponibilidad estable en lugar de cambiar oportunamente entre plataformas.
En el lado de la demanda, los clientes recibirían recompensas de tokens que efectivamente subvencionan su uso. El protocolo podría ofrecer recompensas aumentadas por compromisos de cálculo más largos, incentivando a los usuarios a construir dependencias técnicas más profundas en la plataforma. Estas recompensas podrían estar estructuradas de manera adicional para alinearse con las prioridades estratégicas de la plataforma, como capturar la demanda en una geografía particular.
Las tarifas base para el cálculo podrían mantenerse en o ligeramente por debajo de las tarifas del mercado, con protocolos que utilizanoráculos zkTLSpara monitorear y comparar continuamente los precios de los competidores. Las recompensas de tokens luego servirían como una capa de incentivo adicional sobre estas tarifas base competitivas. Este modelo de precios dual permitiría a la plataforma mantener la competitividad de precios mientras utiliza los incentivos de tokens para impulsar comportamientos específicos que fortalecen la red.
Al distribuir incentivos de tokens, tanto los proveedores como los clientes comenzarían a acumular una participación en la red. Mientras que algunos, quizás la mayoría, podrían vender estas participaciones, otros las conservarían, convirtiéndose efectivamente en partes interesadas y evangelistas de la plataforma. Estos participantes comprometidos tendrían un interés propio en el éxito de la red, contribuyendo a su crecimiento y adopción más allá de su uso directo o provisión de recursos informáticos.
Con el tiempo, a medida que la red alcance la velocidad de escape y establezca fuertes efectos de red, estos incentivos de tokens pueden reducirse gradualmente. Los beneficios naturales de ser el mercado más grande: una mejor coincidencia, una mayor utilización, una cobertura geográfica más amplia, se convertirían en impulsores autosostenibles del crecimiento.
Cómo los incentivos de token pueden potenciar el volante de inercia del mercado de GPU
Si bien el precio y el rango son diferenciadores críticos, las redes de computación descentralizadas abordan una preocupación creciente: las restricciones operativas de los proveedores centralizados. Los proveedores de nube tradicionales ya han demostrado su disposición a suspender o terminar servicios basados en Políticas de contenido y presiones externas. Estos precedentes plantean preguntas legítimas sobre cómo políticas similares podrían extenderse al desarrollo y la implementación de modelos de IA.
A medida que los modelos de IA se vuelven más sofisticados y abordan casos de uso cada vez más diversos, existe una posibilidad real de que los proveedores de servicios en la nube implementen restricciones en el entrenamiento y la implementación de modelos, similares a sus enfoques de moderación de contenido existentes. Esto podría afectar no solo al contenido NSFW y a temas controvertidos, sino también a casos de uso legítimos en áreas como la imagen médica, la investigación científica o las artes creativas que podrían activar filtros automatizados excesivamente cautelosos.
Una red descentralizada ofrece una alternativa al permitir que los participantes del mercado tomen sus propias decisiones de infraestructura, creando potencialmente un entorno más libre e irrestricto para la innovación.
El lado negativo de la arquitectura sin permisos es que la privacidad se vuelve más desafiante. Cuando el cálculo se distribuye en una red de proveedores en lugar de estar contenido dentro de los centros de datos de una sola entidad de confianza, los desarrolladores deben pensar en la seguridad de los datos. Si bien el cifrado y los entornos de ejecución confiables pueden ayudar, hay un compromiso inherente entre la resistencia a la censura y la privacidad que los desarrolladores deben navegar según sus requisitos específicos.
Dada la altísima demanda de computación de IA, los proveedores de GPU pueden explotar su posición para extraer el máximo beneficio de los clientes exitosos. En un publicación del año pasado, el famoso desarrollador independiente Pieter Levels compartió cómo él y otros desarrolladores experimentaron cómo sus proveedores de repente aumentaron los precios en más del 600% después de compartir públicamente los números de ingresos de su aplicación de inteligencia artificial.
Los sistemas descentralizados pueden ofrecer una solución a este problema: la ejecución de contratos sin confianza. Cuando los acuerdos se codifican en la cadena en lugar de estar enterrados en términos de servicio, se vuelven transparentes e inmutables. Un proveedor no puede aumentar arbitrariamente los precios o cambiar los términos a mitad del contrato sin que los cambios sean acordados explícitamente a través del protocolo.
Además del precio, las redes descentralizadas pueden aprovechar entornos de ejecución confiables (TEEs)para proporcionar cálculos verificables. Esto garantiza que los desarrolladores realmente estén obteniendo los recursos de GPU por los que están pagando, tanto en términos de especificaciones de hardware como de acceso dedicado. Por ejemplo, cuando un desarrollador paga por acceso dedicado a ocho GPU H100 para el entrenamiento del modelo, las pruebas criptográficas pueden verificar que sus cargas de trabajo realmente se están ejecutando en H100 con los 80GB completos de memoria por GPU, en lugar de ser degradadas silenciosamente a tarjetas de gama más baja o tener recursos compartidos con otros usuarios.
Las redes informáticas descentralizadas pueden proporcionar a los desarrolladores alternativas verdaderamente sin permisos. A diferencia de los proveedores tradicionales que requieren procesos exhaustivos de KYC y verificaciones de crédito, cualquier persona puede unirse a estas redes y comenzar a consumir o proporcionar recursos informáticos. Esto reduce drásticamente la barrera de entrada, especialmente para los desarrolladores en mercados emergentes o aquellos que trabajan en proyectos experimentales.
La importancia de esta naturaleza sin permisos se vuelve aún más poderosa cuando consideramos el futuro de los agentes de IA. Los agentes de IA apenas están empezando a encontrar su lugar, con agentes verticalmente integradosse espera que supere el tamaño de la industria de SaaS. Con empresas como Terminal de la Verdad y Zerebro, estamos viendo los primeros signos de agentes ganando autonomía y aprendiendo a usar herramientas externas como redes sociales y generadores de imágenes.
A medida que estos sistemas autónomos se vuelven más sofisticados, es posible que necesiten provisionar dinámicamente sus propios recursos informáticos. Una red descentralizada donde los contratos puedan ejecutarse de manera confiable mediante código en lugar de intermediarios humanos es la infraestructura natural para este futuro. Los agentes podrían negociar contratos de forma autónoma, supervisar el rendimiento y ajustar el uso de sus recursos informáticos según la demanda, todo sin necesidad de intervención o aprobación humana.
El concepto de redes de cálculo descentralizadas no es nuevo: los proyectos han estado tratando de democratizar el acceso a recursos informáticos escasos mucho antes del actual auge de la IA.Render Networkha estado operando desde 2017, agregando recursos de GPU para la renderización de gráficos por computadora.Akashalanzado en 2020 para crear un mercado abierto para la informática general. Ambos proyectos encontraron un éxito moderado en sus nichos, pero ahora se están enfocando en cargas de trabajo de inteligencia artificial.
Del mismo modo, las redes de almacenamiento descentralizado como FilecoinyArweaveestán expandiendo en compute. Reconocen que a medida que la IA se convierte en el principal consumidor tanto del almacenamiento como del cómputo, tiene sentido ofrecer soluciones integradas.
Al igual que los centros de datos tradicionales luchan por competir con instalaciones de IA construidas específicamente, estas redes establecidas enfrentan una batalla cuesta arriba contra soluciones nativas de IA. Les falta el ADN para ejecutar la orquestación compleja requerida para las cargas de trabajo de IA. En cambio, están encontrando su lugar al convertirse en proveedores de cómputo para otras redes específicas de IA. Por ejemplo, tanto Render como Akash ahora ponen sus GPU disponibles en el mercado de io.net.
¿Quiénes son estos nuevos mercados nativos de IA?io.netes uno de los líderes tempranos en la agregación de suministro de GPU de grado empresarial, con más de 300,000 GPU verificadas en su red. Afirman ofrecer ahorros de costos del 90% en comparación con los incumbentes centralizados y han alcanzado ganancias diarias de más de $25,000 ($9 millones anualizados). De manera similar, Aethiragrega más de 40,000 GPUs (incluidos más de 4,000 H100) para atender tanto los casos de uso de inteligencia artificial como de computación en la nube.
Anteriormente, discutimos cómo Prime Intellect está creando los marcos para el entrenamiento descentralizado a gran escala. Además de estos esfuerzos, también ofrecen una Mercado de GPUdonde los usuarios pueden alquilar H100s a pedido.Gensynes otro proyecto que apuesta fuerte por la formación descentralizada con un marco de formación similar y un enfoque de mercado de GPU.
Si bien todos estos son mercados agnósticos de carga de trabajo (que admiten tanto entrenamiento como inferencia), algunos proyectos se centran solo en la inferencia, la carga de trabajo de computación descentralizada que más nos entusiasma. El más importante de ellos es Exo Labs, que permite a los usuarios ejecutar LLM de nivel fronterizo en dispositivos cotidianos. Han desarrollado una plataforma de código abierto que permite la distribución de tareas de inferencia de IA en varios dispositivos como iPhones, Androids y Macs. Ellos recientemente demostradoejecutando un modelo 70-B (escalable hasta 400-B) distribuido en cuatro M4 Pro Mac Minis.
Cuando Satoshi lanzó Bitcoin en 2008, sus beneficios - oro digital con una oferta limitada y dinero resistente a la censura - eran puramente teóricos. El sistema financiero tradicional, a pesar de sus defectos, estaba funcionando. Los bancos centrales aún no habían iniciado una impresión de dinero sin precedentes. Las sanciones internacionales no se habían convertido en armas contra economías enteras. La necesidad de una alternativa parecía académica en lugar de urgente.
Se necesitó una década de flexibilización cuantitativa, culminando en una expansión monetaria en la era de COVID, para que los beneficios teóricos de Bitcoin se cristalizaran en un valor tangible. Hoy, a medida que la inflación erosiona los ahorros y las tensiones geopolíticas amenazan la dominancia del dólar, el papel de Bitcoin como "oro digital" ha evolucionado de un sueño de los ciberpunks a un activo adoptado por instituciones y estados-nación.
Este patrón se repitió con las stablecoins. Tan pronto como estuvo disponible una cadena de bloques de propósito general en Ethereum, las stablecoins se convirtieron inmediatamente en uno de los casos de uso más prometedores. Sin embargo, tomó años de mejoras graduales en la tecnología y en las economías de países como Argentina y Turquía, que fueron arrasados por la inflación, para que las stablecoins evolucionaran desde una innovación cripto de nicho hasta una infraestructura financiera crítica que mueve billones de dólares en volumen anual.
La criptografía es una tecnología defensiva por naturaleza: innovaciones que parecen innecesarias en tiempos buenos pero se vuelven esenciales durante las crisis. La necesidad de estas soluciones solo se hace evidente cuando los sistemas incumbentes fallan o revelan sus verdaderos colores.
Hoy en día, estamos viviendo la era dorada de la IA. El flujo de capital de riesgo es libre, las empresas compiten para ofrecer los precios más bajos y las restricciones, si las hay, son raras. En este entorno, las alternativas descentralizadas pueden parecer innecesarias. ¿Por qué lidiar con las complejidades de la economía de tokens y los sistemas de prueba cuando los proveedores tradicionales funcionan perfectamente bien?
Pero si nos guiamos por las principales olas tecnológicas del pasado, esta benevolencia es temporal. Apenas llevamos dos años en la revolución de la IA. A medida que la tecnología madure y los ganadores de la carrera de la IA emerjan, su verdadero poder saldrá a la superficie. Las mismas compañías que hoy ofrecen un acceso generoso eventualmente afirmarán el control, a través de precios, políticas y permisos.
Esto no es solo otro ciclo tecnológico en juego. La IA se está convirtiendo en el nuevo sustrato de la civilización, la lente a través de la cual procesaremos la información, crearemos arte, tomaremos decisiones y, en última instancia, evolucionaremos como especie. La computación es más que un recurso; es la moneda misma de la inteligencia. Quienes controlen su flujo darán forma a la frontera cognitiva de la humanidad.
La informática descentralizada no se trata de ofrecer GPUs más baratas o opciones de implementación más flexibles (aunque debe ofrecer ambas para tener éxito). Se trata de asegurar que el acceso a la inteligencia artificial, la tecnología más transformadora de la humanidad, siga siendo incensurable y soberana. Es nuestro escudo contra un futuro inevitable en el que un puñado de empresas dicten no solo quién puede usar la IA, sino cómo pueden pensar con ella.
Estamos construyendo estos sistemas hoy no porque sean inmediatamente necesarios, sino porque serán esenciales mañana. Cuando la inteligencia artificial se convierta en algo fundamental para la sociedad como el dinero, la computación sin permiso no será solo una alternativa, sino que será tan crucial para resistir la hegemonía digital como lo son Bitcoin y las stablecoins para resistir el control financiero.
La carrera hacia la superinteligencia artificial podría estar fuera del alcance de los sistemas descentralizados. ¿Pero asegurar que los frutos de esta inteligencia sigan siendo accesibles para todos? Esa es una carrera que vale la pena correr.
Título original reenviado: Cálculo descentralizado
El artículo de hoy cubre el sector emergente pero a menudo mal entendido de la informática descentralizada en criptomonedas. Nos sumergimos en el panorama de la infraestructura de IA para entender dónde las alternativas descentralizadas pueden competir de manera realista.
Exploramos preguntas como: ¿Puede ASI ser entrenado en redes distribuidas? ¿Qué ventajas únicas ofrecen las redes de criptomonedas? ¿Y por qué la infraestructura de cómputo sin permisos podría llegar a ser tan esencial para la IA como lo es Bitcoin para las finanzas.
Un patrón común que notarás en el artículo es el crecimiento exponencial de todo lo relacionado con la IA: inversión, capacidad de cálculo y capacidades. Esto coincide con un resurgimiento en los mercados de criptomonedas y la atención prestada. Estamos muy emocionados por la intersección de estas dos grandes olas tecnológicas.
¡Hola!
En un día soleado en Memphis, Tennessee, un avión espía de hélice circulaba repetidamente sobre un edificio industrial, sus pasajeros fotografiando frenéticamente las instalaciones debajo. Esto no era una escena de espionaje de la Guerra Fría sino de 2024. El objetivo no era una instalación militar o un sitio de enriquecimiento de uranio, sino una antigua fábrica de electrodomésticos que ahora alberga uno de los superordenadores más potentes del mundo. Los pasajeros no eran agentes extranjeros, sino empleados de una empresa rival de centros de datos.
Cada pocas décadas, emerge una tecnología transformadora con el potencial de alterar de manera incuestionable la trayectoria de la civilización. Lo que sigue es una carrera entre las entidades más poderosas del mundo para ser los primeros en aprovechar esta tecnología. Las recompensas son tan inmensas y las consecuencias del fracaso tan devastadoras, que estas entidades movilizan rápidamente su arsenal completo de recursos: talento humano y capital, para dominar la tecnología.
En el siglo XX, dos tecnologías destacadas encajan en esta definición: las armas nucleares y la exploración espacial. La carrera para aprovechar estas tecnologías involucró a las naciones más poderosas. Las victorias de Estados Unidos en ambas cimentaron su estatus como superpotencia dominante en el mundo, dando paso a una era de prosperidad sin precedentes. Para los derrotados, Alemania nazi y la Unión Soviética, las consecuencias fueron devastadoras, incluso terminales.
La gigantesca planta K-25 de 44 acres en Oak Ridge, Tennessee, EE. UU., donde se produjo el uranio para la primera arma atómica ( fuente)
La victoria de América tuvo un precio enorme. El Proyecto Manhattan costó casi 2 mil millones de dólares (aproximadamente 30 mil millones ajustados por inflación) y empleó a más de 120,000 personas, una de cada mil estadounidenses. La carrera espacial demandó recursos aún mayores. El programa Apollo costó 28 mil millones de dólares en la década de 1960 (aproximadamente 300 mil millones en dinero de hoy) e involucró a más de 400,000 personas, una de cada 490 estadounidenses. En su apogeo en 1966, la NASA controlaba el 4.4% de todo el presupuesto federal de EE. UU.
El Apollo 11, justo antes del despegue en la misión a la luna ( fuente)
El lanzamiento de ChatGPT en 2022 marcó el amanecer de una nueva carrera con proporciones que alteran la civilización: la búsqueda de la superinteligencia artificial (ASI). Mientras que la IA ya está tejida en la vida diaria, gestionando feeds de redes sociales, recomendaciones de Netflix y filtros de spam de correo electrónico, la emergencia de grandes modelos de lenguaje (LLMs) promete transformar todo: la productividad humana, la creación de medios, la investigación científica y la innovación misma.
Esta vez, los contendientes no son los estados-nación (al menos, aún no), sino las corporaciones más grandes del mundo (Microsoft, Google, Meta, Amazon), las startups más populares (OpenAI, Anthropic) y el individuo más rico (Elon Musk). Mientras que las grandes tecnológicas canalizan un capital sin precedentes para construir la infraestructura necesaria para entrenar modelos cada vez más poderosos, las startups están asegurando récord mundialfinanciamiento de capital de riesgo. Elon es, bueno, haciendo cosas de Elon (el centro de datos bajo vigilancia pertenecía a su empresa, xAI).
Y luego está el resto: empresas, compañías más pequeñas y startups, que quizás no aspiren a construir una IA fuerte (ASI), pero están ansiosas por aprovechar las capacidades de vanguardia desbloqueadas por la IA para optimizar sus negocios, perturbar una industria o crear nuevas por completo. Las recompensas potenciales son tan grandes que todos se están apresurando a reclamar su parte de esta nueva economía impulsada por la inteligencia de las máquinas.
En el corazón de la revolución de la IA se encuentra su componente más esencial: la unidad de procesamiento gráfico (GPU). Originalmente diseñada para alimentar videojuegos, este chip de computadora especializado se ha convertido en la mercancía más codiciada del mundo. La demanda de GPUs es tan abrumadora que las empresas a menudo soportan listas de espera de varios mesessolo para adquirir unos pocos. Esta demanda ha catapultado a NVIDIA, su fabricante principal, a la posición de la empresa más valiosa del mundo.
Para las empresas que no pueden o no quieren comprar directamente GPUs, alquilar potencia de cómputo se ha convertido en la mejor opción. Esto ha impulsado el surgimiento de proveedores de nube de inteligencia artificial, empresas que operan sofisticados centros de datos adaptados para satisfacer las necesidades computacionales del auge de la inteligencia artificial. Sin embargo, el aumento en la demanda y su naturaleza impredecible significa que ni el precio ni la disponibilidad son una garantía.
Yo arguedque la criptomoneda funciona como una tecnología "coasiana", diseñada para "engrasar las ruedas, pavimentar los caminos y fortalecer los puentes" para que otras innovaciones disruptivas florezcan. A medida que la IA emerge como la fuerza transformadora de nuestra era, la escasez y el costo exorbitante del acceso a la GPU presentan una barrera a la innovación. Varias empresas de criptomonedas están interviniendo, con el objetivo de derribar estas barreras con incentivos basados en blockchain.
En el artículo de hoy, primero retrocedemos desde la criptografía para examinar los fundamentos de la infraestructura moderna de IA, cómo aprenden las redes neuronales, por qué las GPU se han vuelto esenciales y cómo los centros de datos de hoy están evolucionando para satisfacer las demandas computacionales sin precedentes. Luego, nos sumergimos en soluciones informáticas descentralizadas, explorando dónde pueden competir realistamente con los proveedores tradicionales, las ventajas únicas que ofrecen las redes criptográficas y por qué, aunque no nos darán IA generalizada, seguirán siendo esenciales para garantizar que los beneficios de la IA sigan siendo accesibles para todos.
Comencemos con por qué las GPUs son tan importantes en primer lugar.
Este es David, una escultura de mármol de 17 pies de altura y 6 toneladas creada por el genio del Renacimiento italiano, Miguel Ángel. Representa al héroe bíblico de la historia de David y Goliat y es considerada una obra maestra por su representación impecable de la anatomía humana y su magistral atención a la perspectiva y el detalle.
Como todas las esculturas de mármol, David comenzó como una enorme losa de mármol de Carrara en bruto. Para llegar a su forma final, majestuosa, Miguel Ángel tuvo que picar metódicamente la piedra. Comenzando con trazos amplios y audaces para establecer la forma humana básica, avanzó hacia detalles cada vez más finos: la curva de un músculo, la tensión en una vena, la sutil expresión de determinación en los ojos. A Miguel Ángel le llevó tres años liberar a David de la piedra.
Pero, ¿por qué discutir una figura de mármol de 500 años en un artículo sobre IA?
Al igual que David, cada red neuronal comienza como un potencial puro: una colección de nodos inicializados con números aleatorios (pesos), tan informe como ese enorme bloque de mármol de Carrara.
Este modelo en bruto se alimenta repetidamente con datos de entrenamiento: innumerables instancias de entradas emparejadas con sus salidas correctas. Cada punto de datos que pasa a través de la red desencadena miles de cálculos. En cada nodo (neurona), las conexiones entrantes multiplican el valor de entrada por el peso de la conexión, suman estos productos y transforman el resultado a través de una "función de activación" que determina la fuerza de disparo de la neurona.
Así como Michelangelo daría un paso atrás, evaluaría su trabajo y corregiría el rumbo, las redes neuronales pasan por un proceso de refinamiento. Después de cada paso hacia adelante, la red compara su salida con la respuesta correcta y calcula su margen de error. A través de un proceso llamado retropropagación, mide cuánto contribuyó cada conexión al error y, al igual que los golpes del cincel de Michelangelo, realiza ajustes en sus valores. Si una conexión conduce a una predicción incorrecta, su influencia disminuye. Si ayuda a llegar a la respuesta correcta, su influencia se fortalece.
Cuando todos los datos pasan por la red (completando un paso hacia adelante y hacia atrás por punto de datos), marca el final de una 'epoca'. Este proceso se repite varias veces, con cada paso refinando la comprensión de la red. Durante las primeras épocas, los cambios de peso son drásticos mientras la red hace ajustes amplios, como los primeros golpes fuertes de cincel. En épocas posteriores, los cambios se vuelven más sutiles, afinando las conexiones para un rendimiento óptimo, al igual que los delicados toques finales resaltaron los detalles de David.
Finalmente, después de miles o millones de iteraciones, el modelo entrenado emerge. Como David, orgulloso en su forma final, la red neuronal se transforma del ruido aleatorio en un sistema capaz de reconocer patrones, hacer predicciones, generar imágenes de gatos montando scooters o permitir que las computadoras comprendan y respondan en lenguaje humano.
Michelangelo, trabajando solo en David, solo podía hacer un golpe de cincel a la vez, cada uno requiriendo cálculos precisos de ángulo, fuerza y posición. Esta precisión meticulosa es la razón por la que le tomó tres años incansables completar su obra maestra. Pero imagina a miles de escultores igualmente hábiles trabajando en David en perfecta coordinación: un equipo en los rizos del cabello, otro en los músculos del torso y cientos más en los detalles intrincados de la cara, las manos y los pies. Tal esfuerzo paralelo comprimiría esos tres años en pocos días.
Del mismo modo, aunque las CPUs son potentes y precisas, solo pueden realizar un cálculo a la vez. Entrenar una red neuronal no requiere un solo cálculo complejo sino cientos de millones de simples, principalmente multiplicaciones y sumas en cada nodo. Por ejemplo, la red neuronal de muestra mencionada anteriormente, con solo 18 nodos y alrededor de 100 conexiones (parámetros), puede ser entrenada en una CPU en un plazo razonable.
Sin embargo, los modelos más potentes de hoy en día, como el GPT-4 de OpenAI, tienen 1,8 billones de parámetros. Incluso los modelos modernos más pequeños contienen al menos mil millones de parámetros. Entrenar estos modelos uno a la vez llevaría siglos. Aquí es donde las GPUs destacan: pueden realizar una gran cantidad de cálculos matemáticos simples simultáneamente, lo que las hace ideales para procesar múltiples nodos de redes neuronales en paralelo.
Las GPU modernas son increíblemente potentes. La última GPU B200 de NVIDIA, por ejemplo, consta de más de 200 mil millones de transistores y admite 2,250 billones de cálculos paralelos por segundo (2,250 TFLOPS). Una sola GPU B200 puede manejar modelos con hasta 740 mil millones de parámetros. Estas máquinas representan hazañas de la ingeniería moderna, lo que explica por qué NVIDIA, vendiendo cada unidad a $40,000, ha visto cómo su precio de las acciones aumenta más del 2,500% en cinco años.
Jensen Huang presentando el NVIDIA B200
Sin embargo, incluso estas formidables máquinas no pueden entrenar modelos de IA solas. Recuerde que durante el entrenamiento, cada instancia de datos debe pasar por el modelo en un ciclo hacia adelante y hacia atrás individualmente. Los modelos de lenguaje grandes modernos (LLMs) se entrenan en conjuntos de datos que abarcan la totalidad de internet. GPT-4, por ejemplo, procesó un estimado de 12 billones de tokens (aproximadamente 9 billones de palabras), y se espera que la próxima generación de modelos maneje hasta 100 billones de tokens. Utilizar una sola GPU para tal volumen inmenso de datos todavía llevaría siglos.
La solución radica en agregar otra capa de paralelismo, creando clústeres de GPU donde las tareas de entrenamiento se distribuyen entre numerosas GPU que trabajan como un sistema unificado. Las cargas de trabajo de entrenamiento de modelos se pueden paralelizar de tres maneras:
Paralelismo de datos: múltiples GPUs mantienen una copia completa del modelo de red neuronal mientras procesan diferentes partes de los datos de entrenamiento. Cada GPU procesa su lote de datos asignado de forma independiente antes de sincronizarse periódicamente con todas las demás GPUs. En este período de sincronización, las GPUs se comunican entre sí para encontrar un promedio colectivo de sus pesos y luego actualizar sus pesos individuales para que sean todos idénticos. En consecuencia, continúan entrenando con su lote de datos individualmente antes de que llegue el momento de sincronizarse nuevamente.
A medida que los modelos crecen, una sola copia puede volverse demasiado grande para caber en una sola GPU. Por ejemplo, la última GPU B200 solo puede contener 740 mil millones de parámetros, mientras que GPT-4 es un modelo de 1,8 billones de parámetros. El paralelismo de datos entre las GPU individuales no funciona en este caso.
Paralelismo de Tensor: Este enfoque aborda la restricción de memoria distribuyendo el trabajo y los pesos de cada capa de modelo en múltiples GPU. Las GPU intercambian cálculos intermedios con todo el clúster durante cada paso de propagación hacia adelante y hacia atrás. Estas GPU se agrupan típicamente en servidores de ocho unidades, conectados a través de NVLink, la interconexión directa GPU a GPU de alta velocidad de NVIDIA. Esta configuración requiere conexiones de alta velocidad de banda ancha (hasta 400 Gb/s) y baja latencia entre las GPU. Un clúster de tensores funciona efectivamente como una sola GPU masiva.
Paralelismo de canalización: Este método divide el modelo entre múltiples GPUs, con cada GPU manejando capas específicas. Los datos fluyen a través de estas GPUs de forma secuencial, como una carrera de relevos donde cada corredor (GPU) gestiona su parte antes de pasar el testigo. El paralelismo de canalización es particularmente efectivo para conectar diferentes servidores de 8 GPUs dentro de un centro de datos, utilizando redes InfiniBand de alta velocidad para la comunicación entre servidores. Si bien sus requisitos de comunicación superan al paralelismo de datos, siguen siendo inferiores a los intercambios intensivos de GPU a GPU del paralelismo tensorial.
La escala de los clústeres modernos es notable. GPT-4, con 1,8 billones de parámetros y 120 capas, requirió 25.000 GPU A100 para el entrenamiento. El proceso llevó tres meses y costó más de $60 millones. El A100 es dos generaciones anterior; utilizando las GPU B200 de hoy en día solo se necesitarían alrededor de 8.000 unidades y 20 días de entrenamiento. Solo otra demostración de lo rápido que avanza la IA.
Pero la clase de modelos GPT-4 son juguetes viejos ahora. La formación para la próxima generación de modelos avanzados está en curso en centros de datos que albergan grupos de 100.000 B100 o H100 GPUs (estos últimos siendo una generación anterior). Estos grupos, que representan más de $4 mil millones en gastos de capital de GPU solamente, son los superordenadores más potentes de la humanidad, entregando al menos cuatro veces la capacidad de cómputo bruto de los propiedad del gobierno.
Además de asegurar la capacidad de cómputo bruta, los aspirantes a ASI se enfrentan a otro problema al intentar configurar estos clústeres: la electricidad. Cada una de estas GPUs consume 700W de energía. Cuando se combinan 100,000 de ellas, todo el clúster (incluido el hardware de soporte) consume más de 150MW de energía. Para poner esto en perspectiva, este consumo equivale al de una ciudad de 300,000 personas, comparable a Nueva Orleans o Zurich.
La locura no se detiene aquí. La mayoría de los aspirantes a ASI creen que el Leyes de escalado LLM-que sugieren que el rendimiento del modelo mejora predeciblemente con el aumento del tamaño del modelo, el tamaño del conjunto de datos y el cálculo de entrenamiento- seguirá siendo cierto. Los planes ya están en marcha para ejecutar entrenamientos de modelos aún más potentes. Para 2025, se proyecta que el costo de cada clúster de entrenamiento supere los $10 mil millones. Para 2027, más de $100 mil millones. A medida que estas cifras se acercan a la inversión del gobierno de EE. UU. en los programas Apolo, queda claro por qué lograr la IA fuerte ha surgido como la carrera definitoria de nuestra era.
Las métricas para los modelos que comienzan con GPT-5 son estimaciones
A medida que el consumo de electricidad crece proporcionalmente con el tamaño de los clústeres, las ejecuciones de entrenamiento del próximo año requerirán más de 1GW de potencia. El año siguiente, 10GW o más. Sin indicaciones de que esta expansión se frene, se espera que los centros de datos consuman aproximadamente 4.5% de la generación mundial para 2030. Las redes eléctricas existentes, ya luchando con las demandas del modelo actual, no puede generar suficiente energía para futuros clústeres. Esto plantea una pregunta crítica: ¿de dónde vendrá esta energía? Big Tech está adoptando un enfoque de dos puntas.
A largo plazo, la única solución viable es que los aspirantes a ASI generen su propia electricidad. Dado sus compromisos climáticos, esta energía debe provenir de fuentes renovables. La energía nuclear se destaca como la solución principal. Amazonrecientemente compradoun campus de centro de datos alimentado por una planta de energía nuclear por $650 millones. Microsoftha contratadoun jefe de tecnologías nucleares y estáreviviendo la histórica planta de Three Mile Island. Google tiene adquirió múltiples reactores nucleares pequeñosde Kairos Power de California. Sam Altman de OpenAI ha respaldado startups de energía comoHelion, Exowatt, y Oklo.
Microsoft está reabriendo la planta nuclear de Three Mile Island (fuente de imagen)
Mientras se siembran las semillas de la energía nuclear ahora, los frutos (o poder) tardarán varios años en dar. ¿Qué pasa con los requisitos de energía para la generación inmediata de modelos? La solución provisional implica la formación distribuida en varios centros de datos. En lugar de concentrar grandes demandas de energía en un solo lugar, empresas como Microsoft y Google están distribuyendo sus clústeres de formación en varios sitios.
El desafío, por supuesto, es lograr que estos sistemas distribuidos trabajen juntos de manera efectiva. Incluso a la velocidad de la luz, los datos tardan aproximadamente 43ms en hacer un viaje de ida y vuelta desde la costa este hasta la costa oeste de Estados Unidos, una eternidad en términos informáticos. Además, si incluso un chip se retrasa, digamos, un 10%, hace que toda la ejecución del entrenamiento se ralentice en el mismo margen.
La solución radica en conectar centros de datos en múltiples sitios con redes de fibra óptica de alta velocidad y aplicar una combinación de las técnicas de paralelismo discutidas anteriormente para sincronizar sus operaciones. El paralelismo tensorial se aplica a las GPU dentro de cada servidor, lo que les permite funcionar como una sola unidad. El paralelismo de tuberías, con sus menores demandas de red, se emplea para vincular servidores dentro del mismo centro de datos. Por último, los centros de datos situados en diferentes ubicaciones (denominados "islas") sincronizan su información periódicamente mediante el paralelismo de datos.
Anteriormente, señalamos que el paralelismo de datos resulta ineficaz para las GPU individuales porque no pueden acomodar modelos grandes de forma independiente. Sin embargo, esta dinámica cambia cuando paralelizamos islas, cada una de las cuales contiene miles de GPU, en lugar de unidades individuales. Los datos de entrenamiento se distribuyen en cada isla, y estas islas se sincronizan periódicamente a través de las conexiones de fibra óptica relativamente más lentas (en comparación con NVLink e Infiniband).
Cambiemos nuestro enfoque de la formación y las GPUs a los propios centros de datos.
Hace veinte años, Amazon lanzó Amazon Web Services (AWS), una de las empresas más transformadoras de la historia, y creó una industria completamente nueva conocida como computación en la nube. Los líderes actuales en la nube (Amazon, Microsoft, Google y Oracle) disfrutan de un cómodo dominio, con unos ingresos anuales combinados de cerca de 300.000 millones de dólares con márgenes del 30-40%. Ahora, la aparición de la IA ha creado nuevas oportunidades en un mercado que ha permanecido en gran medida oligopólico durante años.
Los requisitos físicos, la complejidad técnica y la economía de los centros de datos de IA intensivos en GPU difieren drásticamente de sus contrapartes tradicionales.
Hablamos antes de lo hambrientas de energía que son las GPUs. Esto lleva a que los centros de datos de IA sean mucho más densos en energía y, en consecuencia, produzcan más calor. Mientras que los centros de datos tradicionales utilizan ventiladores gigantes (refrigeración por aire) para disipar el calor, este enfoque no es suficiente ni viable financieramente para las instalaciones de IA. En cambio, los centros de datos de IA están adoptando sistemas de refrigeración líquida donde los bloques de agua se conectan directamente a las GPUs y otros componentes calientes para disipar el calor de manera más eficiente y silenciosa. (Las GPUs B200 vienen con esta arquitectura incorporada). El soporte de sistemas de refrigeración líquida requiere agregar grandes torres de enfriamiento, una instalación centralizada de sistema de agua y tuberías para transportar agua hacia y desde todas las GPUs, una modificación fundamental a la infraestructura del centro de datos.
Además del mayor consumo absoluto de energía, los centros de datos de IA tienen requisitos de carga distintos. Mientras que los centros de datos tradicionales mantienen un consumo de energía predecible, los patrones de uso de energía de las cargas de trabajo de IA son mucho más volátiles. Esta volatilidad ocurre porque las GPU alternan periódicamente entre funcionar al 100% de capacidad y ralentizarse casi por completo a medida que el entrenamiento alcanza puntos de control, donde los pesos se almacenan en la memoria o, como vimos antes, se sincronizan con otras islas. Los centros de datos de IA requieren una infraestructura de energía especializada para gestionar estas fluctuaciones de carga.
La creación de clústeres de GPU es mucho más difícil que la creación de nubes informáticas normales. Las GPU necesitan comunicarse entre sí muy rápidamente. Para que esto suceda, deben estar muy juntos. Una instalación típica de IA necesita más de 200.000 cables especiales llamados conexiones InfiniBand. Estos cables permiten que las GPU se comuniquen. Si un solo cable deja de funcionar, todo el sistema se apaga. El proceso de entrenamiento no puede continuar hasta que se arregle ese cable.
Estos requisitos de infraestructura hacen casi imposible adaptar los centros de datos tradicionales con GPU de alto rendimiento para convertirlos en preparados para la IA. Una actualización así requeriría una reestructuración estructural casi completa. En su lugar, las empresas están construyendo nuevos centros de datos diseñados específicamente para la IA desde cero, con diferentes organizaciones persiguiendo esto en diferentes escalas.
A la vanguardia, las principales empresas tecnológicas están compitiendo para construir sus propios centros de datos de IA. Meta está invirtiendo fuertemente en instalaciones únicamente para su propio desarrollo de IA, tratándolo como una inversión de capital directa, ya que no ofrece servicios en la nube. Microsoft está construyendo centros igualmente masivos para impulsar sus propios proyectos de IA y servir a clientes clave como OpenAI. Oracle también ha entrado en este espacio de forma agresiva, asegurando a OpenAI como un cliente notable. Amazon continúa expandiendo su infraestructura, particularmente para apoyar a las empresas emergentes de IA como Anthropic. La xAI de Elon Musk, que no quería depender de otra empresa, optó por construir su propio clúster de 100.000 GPU.
Dentro del centro de datos xAI's 100,000 H100 GPU (fuente)
Junto a los incumbentes, están surgiendo los “neoclouds” - proveedores de nube especializados que se enfocan exclusivamente en la computación de GPU para cargas de trabajo de IA. Estos neoclouds se dividen en dos categorías distintas según su escala.
Grandes proveedores de neocloud, incluyendo CoreWeave, Crusoe, y LLama Labs, operar clústeres de más de 2.000 GPUs. Se diferencian de los servicios en la nube tradicionales de dos formas: ofreciendo soluciones de infraestructura personalizadas en lugar de paquetes estandarizados y requiriendo compromisos a largo plazo por parte de los clientes en lugar de acuerdos de pago por uso.
Su modelo de negocio aprovecha estos acuerdos a largo plazo y la solvencia de los clientes para asegurar la financiación de la infraestructura. Los ingresos proceden de las primas cobradas por los servicios especializados y de los beneficios derivados de la diferencia entre los bajos costes de financiación y los pagos a los clientes.
Así es como funciona típicamente este tipo de arreglos: un proveedor de neocloud asegura un contrato de tres años con una startup de IA bien financiada por 10,000 GPUs H100 a $40 millones mensuales. Utilizando este flujo de ingresos garantizado de $1.44 mil millones, el proveedor asegura un financiamiento bancario favorable (con un interés del 6%) para comprar e instalar infraestructura por valor de $700 millones. Los ingresos mensuales de $40 millones cubren $10 millones en costos operativos y $20 millones en pagos de préstamos, generando $10 millones en ganancias mensuales, mientras que la startup recibe una potencia informática dedicada y personalizada.
Este modelo requiere una selección excepcionalmente cuidadosa de los clientes. Los proveedores suelen buscar empresas con grandes reservas de efectivo o un fuerte respaldo de riesgo, a menudo valoraciones de 500 millones de dólares o más.
Las pequeñas neonubes ofrecen clústeres de GPU de 2.000 o menos y atienden a un segmento separado del mercado de la IA: las pequeñas y medianas empresas emergentes. Estas empresas entrenan modelos más pequeños (hasta 70 mil millones de parámetros) o ajustan los de código abierto. (El ajuste fino es el proceso de adaptar un modelo base a casos de uso específicos). Ambas cargas de trabajo requieren cómputo moderado pero dedicado durante períodos más cortos.
Estos proveedores ofrecen computación bajo demanda con tarifas por hora para acceso ininterrumpido a clústeres de duración fija. Si bien esto cuesta más que los contratos a largo plazo, brinda a las startups la flexibilidad para experimentar sin comprometerse con acuerdos de varios millones de dólares.
Finalmente, aparte de los incumbentes en la nube y los proveedores de neocloud, tenemos los intermediarios del espacio de la infraestructura de IA: plataformas y agregadores. Estos intermediarios no poseen infraestructura de GPU, sino que conectan a los propietarios de recursos informáticos con aquellos que los necesitan.
Los proveedores de plataforma como HydraHost y Fluidstacksirve como el Shopify de la computación GPU. Así como Shopify permite a los comerciantes lanzar tiendas en línea sin necesidad de construir infraestructura de comercio electrónico, estas plataformas permiten a los operadores de centros de datos y a los propietarios de GPU ofrecer servicios informáticos sin necesidad de desarrollar sus propias interfaces de clientes. Proporcionan un paquete técnico completo para administrar un negocio de computación GPU, que incluye herramientas de gestión de infraestructuras, sistemas de aprovisionamiento de clientes y soluciones de facturación.
Los agregadores de mercado como Vast.aifuncionar como el Amazon de la GPU mundo. Crean un mercado que combina diversas ofertas de cómputo de varios proveedores, que van desde tarjetas RTX de consumo hasta GPUs H100 profesionales. Los propietarios de GPU enumeran sus recursos con métricas de rendimiento detalladas y calificaciones de confiabilidad, mientras que los clientes compran tiempo de cómputo a través de una plataforma de autoservicio.
Hasta ahora, nuestra discusión se ha centrado en la capacitación (o ajuste fino) de modelos. Sin embargo, una vez capacitado, un modelo debe implementarse para servir a los usuarios finales, un proceso llamado inferencia. Cada vez que chatea con ChatGPT, está utilizando GPUs que ejecutan cargas de trabajo de inferencia que toman su entrada y generan la respuesta del modelo. Volvamos a discutir estatuas de mármol por un minuto.
Este también es David, no el original de Miguel Ángel, sino una réplica de yeso encargada por la reina Victoria en 1857 para el Museo Victoria y Alberto de Londres. Mientras que Miguel Ángel pasó tres años agotadores tallando cuidadosamente el mármol para crear el original en Florencia, esta réplica de yeso fue hecha a partir de un molde directo de la estatua, reproduciendo perfectamente cada curva, ángulo y detalle que Miguel Ángel había elaborado. El trabajo creativo intensivo sucedió una sola vez. Después, se trató de replicar fielmente estas características. Hoy en día, las réplicas de David aparecen en todas partes, desde los pasillos de los museos hasta los patios de los casinos de Las Vegas.
Así es exactamente cómo funciona la inferencia en IA. Entrenar un modelo de lenguaje grande es como el proceso escultórico original de Miguel Ángel—intensivo computacionalmente, que consume tiempo y recursos, ya que el modelo aprende gradualmente la forma correcta del lenguaje a través de millones de ajustes pequeños. Pero usar el modelo entrenado—la inferencia—es más como crear una réplica. Cuando chateas con ChatGPT, no estás enseñándole el lenguaje desde cero, sino que estás usando una copia de un modelo cuyos parámetros (como las curvas y ángulos precisos de David) ya han sido perfeccionados.
Las cargas de trabajo de inferencia difieren fundamentalmente del entrenamiento. Si bien el entrenamiento requiere clústeres grandes y densos de las GPU más recientes, como H100, para manejar cálculos intensivos, la inferencia puede ejecutarse en servidores de GPU únicos que utilizan hardware más antiguo como A100 o incluso tarjetas de consumo, lo que la hace significativamente más rentable. Dicho esto, las cargas de trabajo de inferencia tienen sus propias demandas únicas:
Estas características hacen que las cargas de trabajo de inferencia sean ideales para los modelos de precios de Spot. Bajo el modelo de precios de Spot, los recursos de GPU están disponibles con descuentos significativos, a menudo un 30-50% por debajo de las tarifas bajo demanda, con la comprensión de que el servicio puede pausarse cuando los clientes de mayor prioridad necesiten recursos. Este modelo se adapta a la inferencia porque la implementación redundante permite que las cargas de trabajo se desplacen rápidamente a las GPUs disponibles si se interrumpe.
En este contexto de GPU y computación en la nube de IA, ahora estamos en posición de comenzar a explorar dónde encaja la criptografía en todo esto. Vamos (finalmente) a ello.
Los proyectos e informes a menudo citan la observación de Peter Thiel de que "la IA está centralizando, el cripto está descentralizando" al discutir el papel del cripto en el entrenamiento de la IA. Si bien la afirmación de Thiel es indudablemente cierta, acabamos de ver pruebas abundantes de la clara ventaja de las grandes tecnológicas en el entrenamiento de IA potente; a menudo se malinterpreta para sugerir que el cripto y los ordenadores descentralizados ofrecen la solución principal para contrarrestar la influencia de las grandes tecnológicas.
Tales afirmaciones hacen eco de exageraciones anteriores sobre el potencial de la criptografía para revolucionar las redes sociales, los juegos y numerosas otras industrias. No solo son contraproducentes sino que, como argumentaré en breve, son poco realistas, al menos a corto plazo.
En cambio, voy a adoptar un enfoque más pragmático. Voy a suponer que una startup de IA que busca computación no se preocupa por los principios de la descentralización o la oposición ideológica a las grandes empresas tecnológicas. Más bien, tienen un problema: quieren acceder a una computación GPU confiable al costo más bajo posible. Si un proyecto criptográfico puede proporcionar una mejor solución a este problema que las alternativas no criptográficas, lo usarán.
Para ello, primero entendamos con quiénes compiten los proyectos de criptomonedas. Anteriormente, discutimos las diferentes categorías de proveedores de servicios en la nube de IA: las grandes empresas tecnológicas y los proveedores de hiperescala, las grandes neonubes, las pequeñas neonubes, los proveedores de plataformas y los mercados.
La tesis fundamental detrás de la computación descentralizada (como todos los proyectos DePIN) es que el mercado actual de computación opera de manera ineficiente. La demanda de GPU sigue siendo excepcionalmente alta, mientras que la oferta está fragmentada y subutilizada en centros de datos globales y hogares individuales. La mayoría de los proyectos en este sector compiten directamente con los mercados al agregar esta oferta dispersa para reducir las ineficiencias.
Con eso establecido, veamos cómo estos proyectos (y los mercados informáticos en general) pueden ayudar con diferentes cargas de trabajo de IA: entrenamiento, ajuste fino e inferencia.
Lo primero es lo primero. No, ASI no va a ser entrenado en una red global de GPUs descentralizadas. Al menos, no en la trayectoria actual de la IA. Aquí está la razón.
Anteriormente, discutimos lo grandes que se están volviendo los clústeres de modelos base. Necesitas 100,000 de las GPUs más potentes del mundo solo para comenzar a competir. Este número solo aumenta cada año que pasa. Para 2026, se espera que el costo de una ejecución de entrenamiento supere los $100 mil millones de dólares, lo que requeriría tal vez un millón de GPUs o más.
Solo las grandes empresas de tecnología, respaldadas por importantes neonubes y asociaciones directas con Nvidia, pueden ensamblar grupos de esta magnitud. Recuerda, estamos en una carrera por la IA generalizada, y todos los participantes están altamente motivados y capitalizados. Si hay un suministro adicional de estas muchas GPUs (que no lo hay), serán los primeros en adquirirlas.
Incluso si un proyecto de cripto lograra de alguna manera la computación necesaria, dos obstáculos fundamentales impiden el desarrollo de ASI descentralizada:
En primer lugar, las GPUs aún necesitan estar conectadas en grandes grupos para funcionar de manera efectiva. Incluso si estos grupos están divididos entre islas en las ciudades, tendrán que estar conectados por líneas de fibra óptica dedicadas. Ninguna de estas opciones es posible en un entorno descentralizado. Más allá de la adquisición de GPUs, el establecimiento de centros de datos listos para la inteligencia artificial requiere una planificación meticulosa, que suele ser un proceso de uno o dos años. (xAI lo hizo en solo 122 días, pero es poco probable que Elon lance un token en el futuro cercano.)
En segundo lugar, simplemente crear un centro de datos de IA no es suficiente para dar a luz a una IA superinteligente. Como fundador de Anthropic, Dario Amodei recientemente explicado, escalar en IA es análogo a una reacción química. Así como una reacción química requiere múltiples reactivos en proporciones precisas para proceder, el éxito en la escalabilidad de la IA depende de tres ingredientes esenciales que crecen en conjunto: redes más grandes, tiempos de entrenamiento más largos y conjuntos de datos más grandes. Si se escala un componente sin los demás, el proceso se detiene.
Incluso si logramos de alguna manera acumular tanto la capacidad de cálculo como hacer que los clústeres trabajen juntos, todavía necesitamos terabytes de datos de alta calidad para que el modelo entrenado sea bueno. Sin las fuentes de datos propietarias de las grandes empresas tecnológicas, el capital para firmar acuerdos de varios millones de dólares con foros en línea y medios de comunicación, o modelos existentes para generar datos sintéticos, adquirir datos de entrenamiento adecuados es imposible.
En los últimos tiempos ha habido especulaciones de que las leyes de escala puedan alcanzar un punto máximo, con las LLMs posiblemente alcanzando techos de rendimiento. Algunos interpretan esto como una oportunidad para el desarrollo de IA descentralizada. Sin embargo, esto pasa por alto un factor crucial: la concentración de talento. Las grandes empresas de tecnología de hoy en día y los laboratorios de IA albergan a los investigadores más destacados del mundo. Cualquier avance alternativo en el camino hacia la IA generalmente inteligente probablemente surgirá de estos centros. Dadas las condiciones competitivas, estos descubrimientos se mantendrían en secreto.
Teniendo en cuenta todos estos argumentos, estoy 99,99% seguro de que el entrenamiento de ASI, o incluso los modelos más poderosos del mundo, no serán entrenados en un proyecto de cómputo descentralizado. En ese caso, ¿qué modelos podría ayudar a entrenar la criptomoneda?
Para que los modelos puedan entrenarse en clústeres de GPU separados ubicados en diferentes ubicaciones geográficas, debemos implementar el paralelismo de datos entre ellos. (Recuerde que el paralelismo de datos es cómo las diferentes islas de GPU, cada una trabajando en fragmentos separados de los datos de entrenamiento, se sincronizan entre sí). Cuanto más grande sea el modelo que se está entrenando, mayor será la cantidad de datos que necesita ser intercambiada entre estas islas. Como discutimos, para modelos de vanguardia con más de un billón de parámetros, el ancho de banda necesario es lo suficientemente grande como para requerir conexiones de fibra óptica dedicadas.
Sin embargo, para los modelos más pequeños, los requisitos de ancho de banda disminuyen proporcionalmente. Los recientes avances en algoritmos de entrenamiento de baja comunicación, en particular en la sincronización retardada, han creado oportunidades prometedoras para entrenar modelos pequeños y medianos de manera descentralizada. Dos equipos están liderando estos esfuerzos experimentales.
Investigación de Nous es una empresa aceleradora de IA y un actor líder en el desarrollo de IA de código abierto. Son más conocidos por su serie Hermes de modelos de lenguaje y proyectos innovadores como World Sim. A principios de este año, operaron una subred BitTensor de clasificación LLM durante unos meses. Se han sumergido en la computación descentralizada al liberar el DisTrO(Proyecto de entrenamiento distribuido a través de Internet), donde lograron entrenar con éxito un modelo Llama-2 de 1.2B parámetros al tiempo que lograron una reducción de 857 veces en los requisitos de ancho de banda entre las GPU.
El informe DisTrO de Nous Research
Prime Intellect, una startup que desarrolla infraestructura para la inteligencia artificial descentralizada a gran escala, tiene como objetivo agregar recursos informáticos globales y permitir el entrenamiento colaborativo de modelos de última generación a través de sistemas distribuidos. Su Marco de trabajo OpenDiLoCo(implementando DeepMind’sMétodo distribuido de baja comunicación) ha entrenado con éxito un modelo de mil millones de parámetros en dos continentes y tres países mientras mantenía una utilización de computación del 90-95%.
Pero, ¿cómo funcionan estas ejecuciones de entrenamiento descentralizadas?
El paralelismo de datos tradicional requiere que las GPUs compartan y promedien sus pesos después de cada paso de entrenamiento, lo cual es imposible a través de conexiones a internet. En cambio, estos proyectos permiten que cada 'isla' de GPUs se entrene de forma independiente durante cientos de pasos antes de sincronizarse. Piensa en ello como equipos de investigación independientes trabajando en el mismo proyecto: en lugar de estar constantemente consultándose entre sí, progresan significativamente de forma independiente antes de compartir sus descubrimientos.
DisTrO y OpenDiLoCo solo se sincronizan cada 500 pasos, utilizando un enfoque de doble optimizador:
Cuando se sincronizan, en lugar de compartir todos los pesos, comparten un 'pseudo-gradiente', esencialmente la diferencia entre sus pesos actuales y los pesos de la última sincronización. Esto es notablemente eficiente, como compartir solo lo que ha cambiado en un documento en lugar de enviar todo el documento cada vez.
INTELECTO-1, una implementación práctica de OpenDiLoCo de Prime Intellect, está impulsando este enfoque aún más mediante el entrenamiento de un modelo de parámetros 10B, el mayor esfuerzo de entrenamiento descentralizado hasta la fecha. Han añadido optimizaciones clave como:
INTELLECT-1, entrenado por más de 20 clusters de GPU distribuidos por todo el mundo, recientemente completóEntrenamiento previo y pronto se lanzará como un modelo totalmente de código abierto.
Tablero de entrenamiento INTELLECT-1
Equipos como Macrocosmosestán utilizando algoritmos similares aentrenar modelosen el ecosistema de Bittensor.
Si estos algoritmos de entrenamiento descentralizados continúan mejorando, podrían ser capaces de soportar modelos de hasta 100 mil millones de parámetros con la próxima generación de GPUs. Incluso los modelos de este tamaño pueden ser muy útiles para una amplia variedad de casos de uso:
El ajuste fino es el proceso de tomar un modelo de base pre-entrenado (generalmente uno de código abierto de Meta, Mistral o Alibaba) y entrenarlo aún más en un conjunto de datos específico para adaptarlo a tareas o dominios particulares. Esto requiere significativamente menos cómputo que el entrenamiento desde cero, ya que el modelo ya ha aprendido patrones de lenguaje generales y solo necesita ajustar sus pesos para el nuevo dominio.
Calcular los requisitos para ajustar la escala según el tamaño del modelo. Suponiendo que se entrena en un H100:
Dadas estas especificaciones, el ajuste fino no requiere los complejos algoritmos de entrenamiento distribuido previamente discutidos. El modelo bajo demanda, donde los desarrolladores alquilan clusters de GPU durante períodos cortos y concentrados, proporciona un soporte adecuado. Los mercados de computación descentralizada con una robusta disponibilidad de GPU están idealmente posicionados para manejar estas cargas de trabajo.
La inferencia es donde los mercados informáticos descentralizados tienen el camino más claro para encajar en el mercado. Irónicamente, este es el flujo de trabajo menos discutido en el contexto del entrenamiento descentralizado. Esto se debe a dos factores: la inferencia carece del atractivo de 100,000 ejecuciones de entrenamiento de modelos GPU 'dios', y en parte debido a la fase actual de la revolución de la IA.
A partir de hoy, la mayoría de la computación se destina efectivamente al entrenamiento. La carrera hacia la IA generalizada está generando grandes inversiones iniciales en infraestructura de entrenamiento. Sin embargo, este equilibrio inevitablemente cambia a medida que las aplicaciones de IA pasan de la investigación a la producción. Para que un modelo de negocio basado en IA sea sostenible, los ingresos generados por la inferencia deben superar los costos tanto del entrenamiento como de la inferencia combinados. Si bien el entrenamiento de GPT-4 fue enormemente costoso, eso fue un costo único. Los gastos continuos de computación y el camino hacia la rentabilidad de OpenAI se basan en atender miles de millones de solicitudes de inferencia de clientes de pago.
Los mercados de computación, descentralizados o de otra manera, por su naturaleza de agregar una variedad de modelos de GPU (antiguos y nuevos) de todo el mundo, se encuentran en una posición única para servir cargas de trabajo de inferencia.
Los mercados informáticos, ya sean descentralizados o tradicionales, sobresalen naturalmente en cargas de trabajo de inferencia al agregar diversos modelos de GPU (tanto actuales como antiguos) a nivel mundial. Sus ventajas inherentes se alinean perfectamente con los requisitos de inferencia: distribución geográfica amplia, tiempo de actividad constante, redundancia del sistema y compatibilidad entre generaciones de GPU.
Hemos discutido los diferentes flujos de trabajo que la informática descentralizada puede y no puede ayudar. Ahora, debemos responder otra pregunta importante: ¿por qué un desarrollador elegiría asegurar la informática de un proveedor descentralizado en lugar de uno centralizado? ¿Qué ventajas convincentes ofrecen las soluciones descentralizadas?
Las stablecoins lograron adaptarse al mercado al ofrecer una alternativa superior a los pagos transfronterizos tradicionales. Un factor importante es que las stablecoins son simplemente mucho más baratas. De manera similar, el factor más importante que determina la elección de un proveedor de servicios en la nube para desarrolladores de IA es el costo. Para que los proveedores de cómputo descentralizado compitan de manera efectiva, primero deben ofrecer precios superiores.
Un mercado informático, como todos los mercados, es un negocio de efectos de red. Cuanto mayor sea la oferta de GPU en una plataforma, mayor será la liquidez y la disponibilidad para los clientes, lo que a su vez atrae más demanda. A medida que crece la demanda, esto incentiva a más propietarios de GPU a unirse a la red, creando un círculo virtuoso. El aumento de la oferta también permite precios más competitivos a través de una mejor combinación y un menor tiempo de inactividad. Cuando los clientes pueden encontrar constantemente el proceso que necesitan a precios atractivos, es más probable que creen dependencias técnicas duraderas en la plataforma, lo que fortalece aún más los efectos de red.
Esta dinámica es particularmente poderosa en la inferencia, donde la distribución geográfica del suministro puede mejorar realmente la oferta del producto al reducir la latencia para los usuarios finales. El primer mercado en lograr esta rueda de liquidez a gran escala tendrá una ventaja competitiva significativa, ya que tanto los proveedores como los clientes enfrentan costos de cambio una vez que se han integrado con las herramientas y flujos de trabajo de una plataforma.
El efecto de red del mercado de GPU funciona como un volante
En tales mercados donde el ganador se lo lleva todo, Arranque de la redy alcanzar la velocidad de escape es la fase más crítica. Aquí, las criptomonedas proporcionan a los proyectos de computación descentralizada una herramienta muy poderosa que sus competidores centralizados simplemente no poseen: incentivos de tokens.
Los mecanismos pueden ser sencillos pero poderosos. El protocolo primero lanzaría un token que incluye un programa de recompensas inflacionarias, posiblemente distribuyendo asignaciones iniciales a los primeros contribuyentes a través de airdrops. Estas emisiones de tokens servirían como la herramienta principal para arrancar ambos lados del mercado.
Para los proveedores de GPU, la estructura de recompensas debe diseñarse cuidadosamente para dar forma al comportamiento del lado de la oferta. Los proveedores ganarían tokens proporcionales a sus tasas de computación y utilización contribuidas, pero el sistema debería ir más allá de las simples recompensas lineales. El protocolo podría implementar multiplicadores dinámicos de recompensas para abordar los desequilibrios geográficos o de tipo de hardware, de manera similar a cómo Uber utiliza el aumento de precios para incentivar a los conductores en áreas de alta demanda.
Un proveedor podría ganar 1.5x recompensas por ofrecer cálculos en regiones desatendidas o 2x recompensas por proporcionar tipos de GPU temporalmente escasos. Además, escalonar el sistema de recompensas en función de las tasas de utilización consistentes alentaría a los proveedores a mantener una disponibilidad estable en lugar de cambiar oportunamente entre plataformas.
En el lado de la demanda, los clientes recibirían recompensas de tokens que efectivamente subvencionan su uso. El protocolo podría ofrecer recompensas aumentadas por compromisos de cálculo más largos, incentivando a los usuarios a construir dependencias técnicas más profundas en la plataforma. Estas recompensas podrían estar estructuradas de manera adicional para alinearse con las prioridades estratégicas de la plataforma, como capturar la demanda en una geografía particular.
Las tarifas base para el cálculo podrían mantenerse en o ligeramente por debajo de las tarifas del mercado, con protocolos que utilizanoráculos zkTLSpara monitorear y comparar continuamente los precios de los competidores. Las recompensas de tokens luego servirían como una capa de incentivo adicional sobre estas tarifas base competitivas. Este modelo de precios dual permitiría a la plataforma mantener la competitividad de precios mientras utiliza los incentivos de tokens para impulsar comportamientos específicos que fortalecen la red.
Al distribuir incentivos de tokens, tanto los proveedores como los clientes comenzarían a acumular una participación en la red. Mientras que algunos, quizás la mayoría, podrían vender estas participaciones, otros las conservarían, convirtiéndose efectivamente en partes interesadas y evangelistas de la plataforma. Estos participantes comprometidos tendrían un interés propio en el éxito de la red, contribuyendo a su crecimiento y adopción más allá de su uso directo o provisión de recursos informáticos.
Con el tiempo, a medida que la red alcance la velocidad de escape y establezca fuertes efectos de red, estos incentivos de tokens pueden reducirse gradualmente. Los beneficios naturales de ser el mercado más grande: una mejor coincidencia, una mayor utilización, una cobertura geográfica más amplia, se convertirían en impulsores autosostenibles del crecimiento.
Cómo los incentivos de token pueden potenciar el volante de inercia del mercado de GPU
Si bien el precio y el rango son diferenciadores críticos, las redes de computación descentralizadas abordan una preocupación creciente: las restricciones operativas de los proveedores centralizados. Los proveedores de nube tradicionales ya han demostrado su disposición a suspender o terminar servicios basados en Políticas de contenido y presiones externas. Estos precedentes plantean preguntas legítimas sobre cómo políticas similares podrían extenderse al desarrollo y la implementación de modelos de IA.
A medida que los modelos de IA se vuelven más sofisticados y abordan casos de uso cada vez más diversos, existe una posibilidad real de que los proveedores de servicios en la nube implementen restricciones en el entrenamiento y la implementación de modelos, similares a sus enfoques de moderación de contenido existentes. Esto podría afectar no solo al contenido NSFW y a temas controvertidos, sino también a casos de uso legítimos en áreas como la imagen médica, la investigación científica o las artes creativas que podrían activar filtros automatizados excesivamente cautelosos.
Una red descentralizada ofrece una alternativa al permitir que los participantes del mercado tomen sus propias decisiones de infraestructura, creando potencialmente un entorno más libre e irrestricto para la innovación.
El lado negativo de la arquitectura sin permisos es que la privacidad se vuelve más desafiante. Cuando el cálculo se distribuye en una red de proveedores en lugar de estar contenido dentro de los centros de datos de una sola entidad de confianza, los desarrolladores deben pensar en la seguridad de los datos. Si bien el cifrado y los entornos de ejecución confiables pueden ayudar, hay un compromiso inherente entre la resistencia a la censura y la privacidad que los desarrolladores deben navegar según sus requisitos específicos.
Dada la altísima demanda de computación de IA, los proveedores de GPU pueden explotar su posición para extraer el máximo beneficio de los clientes exitosos. En un publicación del año pasado, el famoso desarrollador independiente Pieter Levels compartió cómo él y otros desarrolladores experimentaron cómo sus proveedores de repente aumentaron los precios en más del 600% después de compartir públicamente los números de ingresos de su aplicación de inteligencia artificial.
Los sistemas descentralizados pueden ofrecer una solución a este problema: la ejecución de contratos sin confianza. Cuando los acuerdos se codifican en la cadena en lugar de estar enterrados en términos de servicio, se vuelven transparentes e inmutables. Un proveedor no puede aumentar arbitrariamente los precios o cambiar los términos a mitad del contrato sin que los cambios sean acordados explícitamente a través del protocolo.
Además del precio, las redes descentralizadas pueden aprovechar entornos de ejecución confiables (TEEs)para proporcionar cálculos verificables. Esto garantiza que los desarrolladores realmente estén obteniendo los recursos de GPU por los que están pagando, tanto en términos de especificaciones de hardware como de acceso dedicado. Por ejemplo, cuando un desarrollador paga por acceso dedicado a ocho GPU H100 para el entrenamiento del modelo, las pruebas criptográficas pueden verificar que sus cargas de trabajo realmente se están ejecutando en H100 con los 80GB completos de memoria por GPU, en lugar de ser degradadas silenciosamente a tarjetas de gama más baja o tener recursos compartidos con otros usuarios.
Las redes informáticas descentralizadas pueden proporcionar a los desarrolladores alternativas verdaderamente sin permisos. A diferencia de los proveedores tradicionales que requieren procesos exhaustivos de KYC y verificaciones de crédito, cualquier persona puede unirse a estas redes y comenzar a consumir o proporcionar recursos informáticos. Esto reduce drásticamente la barrera de entrada, especialmente para los desarrolladores en mercados emergentes o aquellos que trabajan en proyectos experimentales.
La importancia de esta naturaleza sin permisos se vuelve aún más poderosa cuando consideramos el futuro de los agentes de IA. Los agentes de IA apenas están empezando a encontrar su lugar, con agentes verticalmente integradosse espera que supere el tamaño de la industria de SaaS. Con empresas como Terminal de la Verdad y Zerebro, estamos viendo los primeros signos de agentes ganando autonomía y aprendiendo a usar herramientas externas como redes sociales y generadores de imágenes.
A medida que estos sistemas autónomos se vuelven más sofisticados, es posible que necesiten provisionar dinámicamente sus propios recursos informáticos. Una red descentralizada donde los contratos puedan ejecutarse de manera confiable mediante código en lugar de intermediarios humanos es la infraestructura natural para este futuro. Los agentes podrían negociar contratos de forma autónoma, supervisar el rendimiento y ajustar el uso de sus recursos informáticos según la demanda, todo sin necesidad de intervención o aprobación humana.
El concepto de redes de cálculo descentralizadas no es nuevo: los proyectos han estado tratando de democratizar el acceso a recursos informáticos escasos mucho antes del actual auge de la IA.Render Networkha estado operando desde 2017, agregando recursos de GPU para la renderización de gráficos por computadora.Akashalanzado en 2020 para crear un mercado abierto para la informática general. Ambos proyectos encontraron un éxito moderado en sus nichos, pero ahora se están enfocando en cargas de trabajo de inteligencia artificial.
Del mismo modo, las redes de almacenamiento descentralizado como FilecoinyArweaveestán expandiendo en compute. Reconocen que a medida que la IA se convierte en el principal consumidor tanto del almacenamiento como del cómputo, tiene sentido ofrecer soluciones integradas.
Al igual que los centros de datos tradicionales luchan por competir con instalaciones de IA construidas específicamente, estas redes establecidas enfrentan una batalla cuesta arriba contra soluciones nativas de IA. Les falta el ADN para ejecutar la orquestación compleja requerida para las cargas de trabajo de IA. En cambio, están encontrando su lugar al convertirse en proveedores de cómputo para otras redes específicas de IA. Por ejemplo, tanto Render como Akash ahora ponen sus GPU disponibles en el mercado de io.net.
¿Quiénes son estos nuevos mercados nativos de IA?io.netes uno de los líderes tempranos en la agregación de suministro de GPU de grado empresarial, con más de 300,000 GPU verificadas en su red. Afirman ofrecer ahorros de costos del 90% en comparación con los incumbentes centralizados y han alcanzado ganancias diarias de más de $25,000 ($9 millones anualizados). De manera similar, Aethiragrega más de 40,000 GPUs (incluidos más de 4,000 H100) para atender tanto los casos de uso de inteligencia artificial como de computación en la nube.
Anteriormente, discutimos cómo Prime Intellect está creando los marcos para el entrenamiento descentralizado a gran escala. Además de estos esfuerzos, también ofrecen una Mercado de GPUdonde los usuarios pueden alquilar H100s a pedido.Gensynes otro proyecto que apuesta fuerte por la formación descentralizada con un marco de formación similar y un enfoque de mercado de GPU.
Si bien todos estos son mercados agnósticos de carga de trabajo (que admiten tanto entrenamiento como inferencia), algunos proyectos se centran solo en la inferencia, la carga de trabajo de computación descentralizada que más nos entusiasma. El más importante de ellos es Exo Labs, que permite a los usuarios ejecutar LLM de nivel fronterizo en dispositivos cotidianos. Han desarrollado una plataforma de código abierto que permite la distribución de tareas de inferencia de IA en varios dispositivos como iPhones, Androids y Macs. Ellos recientemente demostradoejecutando un modelo 70-B (escalable hasta 400-B) distribuido en cuatro M4 Pro Mac Minis.
Cuando Satoshi lanzó Bitcoin en 2008, sus beneficios - oro digital con una oferta limitada y dinero resistente a la censura - eran puramente teóricos. El sistema financiero tradicional, a pesar de sus defectos, estaba funcionando. Los bancos centrales aún no habían iniciado una impresión de dinero sin precedentes. Las sanciones internacionales no se habían convertido en armas contra economías enteras. La necesidad de una alternativa parecía académica en lugar de urgente.
Se necesitó una década de flexibilización cuantitativa, culminando en una expansión monetaria en la era de COVID, para que los beneficios teóricos de Bitcoin se cristalizaran en un valor tangible. Hoy, a medida que la inflación erosiona los ahorros y las tensiones geopolíticas amenazan la dominancia del dólar, el papel de Bitcoin como "oro digital" ha evolucionado de un sueño de los ciberpunks a un activo adoptado por instituciones y estados-nación.
Este patrón se repitió con las stablecoins. Tan pronto como estuvo disponible una cadena de bloques de propósito general en Ethereum, las stablecoins se convirtieron inmediatamente en uno de los casos de uso más prometedores. Sin embargo, tomó años de mejoras graduales en la tecnología y en las economías de países como Argentina y Turquía, que fueron arrasados por la inflación, para que las stablecoins evolucionaran desde una innovación cripto de nicho hasta una infraestructura financiera crítica que mueve billones de dólares en volumen anual.
La criptografía es una tecnología defensiva por naturaleza: innovaciones que parecen innecesarias en tiempos buenos pero se vuelven esenciales durante las crisis. La necesidad de estas soluciones solo se hace evidente cuando los sistemas incumbentes fallan o revelan sus verdaderos colores.
Hoy en día, estamos viviendo la era dorada de la IA. El flujo de capital de riesgo es libre, las empresas compiten para ofrecer los precios más bajos y las restricciones, si las hay, son raras. En este entorno, las alternativas descentralizadas pueden parecer innecesarias. ¿Por qué lidiar con las complejidades de la economía de tokens y los sistemas de prueba cuando los proveedores tradicionales funcionan perfectamente bien?
Pero si nos guiamos por las principales olas tecnológicas del pasado, esta benevolencia es temporal. Apenas llevamos dos años en la revolución de la IA. A medida que la tecnología madure y los ganadores de la carrera de la IA emerjan, su verdadero poder saldrá a la superficie. Las mismas compañías que hoy ofrecen un acceso generoso eventualmente afirmarán el control, a través de precios, políticas y permisos.
Esto no es solo otro ciclo tecnológico en juego. La IA se está convirtiendo en el nuevo sustrato de la civilización, la lente a través de la cual procesaremos la información, crearemos arte, tomaremos decisiones y, en última instancia, evolucionaremos como especie. La computación es más que un recurso; es la moneda misma de la inteligencia. Quienes controlen su flujo darán forma a la frontera cognitiva de la humanidad.
La informática descentralizada no se trata de ofrecer GPUs más baratas o opciones de implementación más flexibles (aunque debe ofrecer ambas para tener éxito). Se trata de asegurar que el acceso a la inteligencia artificial, la tecnología más transformadora de la humanidad, siga siendo incensurable y soberana. Es nuestro escudo contra un futuro inevitable en el que un puñado de empresas dicten no solo quién puede usar la IA, sino cómo pueden pensar con ella.
Estamos construyendo estos sistemas hoy no porque sean inmediatamente necesarios, sino porque serán esenciales mañana. Cuando la inteligencia artificial se convierta en algo fundamental para la sociedad como el dinero, la computación sin permiso no será solo una alternativa, sino que será tan crucial para resistir la hegemonía digital como lo son Bitcoin y las stablecoins para resistir el control financiero.
La carrera hacia la superinteligencia artificial podría estar fuera del alcance de los sistemas descentralizados. ¿Pero asegurar que los frutos de esta inteligencia sigan siendo accesibles para todos? Esa es una carrera que vale la pena correr.