Microsoft ha lanzado su Fara-7B, que no es solo otro modelo de IA, sino que ha demostrado con datos reales que la creencia de que “cuanto más grande, más inteligente” no siempre es cierta. Este “agente de uso informático” con solo 7 mil millones de parámetros supera en varias pruebas de referencia a GPT-4o de OpenAI, y además puede ejecutarse directamente en tu ordenador personal, sin depender de la nube.
Datos de rendimiento que hablan por sí mismos: ¿Por qué gana un modelo pequeño?
En la prueba de referencia WebVoyager, Fara-7B logró una tasa de finalización del 73.5%, superando directamente al GPT-4o con un 65.1%. Lo más impresionante es el indicador de eficiencia: realizar la misma operación requiere solo 16 pasos, mientras que el UI-TARS-1.5-7B del mismo nivel necesita 41 pasos, ¡una reducción del 60% en pasos redundantes!
Esto no es casualidad, sino que se debe a que Microsoft ha utilizado un método de entrenamiento basado en destilación de conocimiento. Al integrar 145,000 ejemplos de navegación generados por el sistema de múltiples agentes Magentic-One, Microsoft ha logrado comprimir las capacidades de un gran modelo en uno más compacto y eficiente. Está basado en Qwen2.5-VL-7B, con una ventana de contexto ultra larga de 128,000 tokens, llevando la comprensión visual a un nuevo nivel.
Mirar la pantalla, hacer clic: la inferencia a nivel de píxel redefine la automatización
La carta fuerte de Fara-7B radica en su lógica de “operación visual”. Mientras que los métodos tradicionales dependen de código estructurado en el navegador, Fara-7B realiza inferencias completamente basadas en datos a nivel de píxel: lee capturas de pantalla y predice acciones como clics del ratón, entrada de texto, desplazamiento de página, etc. Incluso en sitios web con código desordenado, puede funcionar normalmente.
Yash Lara, gerente de producto en el Microsoft Research, lo denomina “soberanía de píxeles”, permitiendo que industrias altamente reguladas como la médica y financiera puedan desplegarlo localmente con tranquilidad. Esto significa que la información sensible de las empresas ya no necesita subir a la nube, reduciendo significativamente la latencia y garantizando la privacidad de los datos.
Mecanismo de seguridad: línea de defensa automática para operaciones clave
Cabe destacar que Fara-7B incorpora un mecanismo de “punto de confirmación clave”. Cuando se enfrentan a operaciones que involucran datos personales o acciones irreversibles (como enviar correos o transferir dinero), el modelo se detiene automáticamente y solicita confirmación humana. Combinado con la interfaz interactiva Magentic-UI, forma una verdadera línea de defensa colaborativa entre humanos y máquinas.
Código abierto, pero aún no listo para producción
El 24 de noviembre, Microsoft lanzó oficialmente Fara-7B bajo licencia MIT, disponible en Hugging Face y en la plataforma Microsoft Foundry, y soporta aplicaciones comerciales. Sin embargo, Microsoft admite que el modelo aún no cumple con los estándares para despliegue en entornos de producción, siendo principalmente para que desarrolladores realicen prototipos y validen funciones.
Este lanzamiento refleja un cambio importante: Microsoft ha declarado claramente que en el futuro no perseguirá modelos cada vez más grandes por sí mismos, sino que se enfocará en crear soluciones “pequeñas, inteligentes y seguras”. Además, planean introducir aprendizaje reforzado en entornos sandbox para entrenar el modelo de forma autónoma y mejorar aún más su potencial de autoaprendizaje.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Microsoft Fara-7B supera en rendimiento a GPT-4o, ¿cómo logra un modelo de 7 mil millones de parámetros realizar cálculos en segundos localmente?
Microsoft ha lanzado su Fara-7B, que no es solo otro modelo de IA, sino que ha demostrado con datos reales que la creencia de que “cuanto más grande, más inteligente” no siempre es cierta. Este “agente de uso informático” con solo 7 mil millones de parámetros supera en varias pruebas de referencia a GPT-4o de OpenAI, y además puede ejecutarse directamente en tu ordenador personal, sin depender de la nube.
Datos de rendimiento que hablan por sí mismos: ¿Por qué gana un modelo pequeño?
En la prueba de referencia WebVoyager, Fara-7B logró una tasa de finalización del 73.5%, superando directamente al GPT-4o con un 65.1%. Lo más impresionante es el indicador de eficiencia: realizar la misma operación requiere solo 16 pasos, mientras que el UI-TARS-1.5-7B del mismo nivel necesita 41 pasos, ¡una reducción del 60% en pasos redundantes!
Esto no es casualidad, sino que se debe a que Microsoft ha utilizado un método de entrenamiento basado en destilación de conocimiento. Al integrar 145,000 ejemplos de navegación generados por el sistema de múltiples agentes Magentic-One, Microsoft ha logrado comprimir las capacidades de un gran modelo en uno más compacto y eficiente. Está basado en Qwen2.5-VL-7B, con una ventana de contexto ultra larga de 128,000 tokens, llevando la comprensión visual a un nuevo nivel.
Mirar la pantalla, hacer clic: la inferencia a nivel de píxel redefine la automatización
La carta fuerte de Fara-7B radica en su lógica de “operación visual”. Mientras que los métodos tradicionales dependen de código estructurado en el navegador, Fara-7B realiza inferencias completamente basadas en datos a nivel de píxel: lee capturas de pantalla y predice acciones como clics del ratón, entrada de texto, desplazamiento de página, etc. Incluso en sitios web con código desordenado, puede funcionar normalmente.
Yash Lara, gerente de producto en el Microsoft Research, lo denomina “soberanía de píxeles”, permitiendo que industrias altamente reguladas como la médica y financiera puedan desplegarlo localmente con tranquilidad. Esto significa que la información sensible de las empresas ya no necesita subir a la nube, reduciendo significativamente la latencia y garantizando la privacidad de los datos.
Mecanismo de seguridad: línea de defensa automática para operaciones clave
Cabe destacar que Fara-7B incorpora un mecanismo de “punto de confirmación clave”. Cuando se enfrentan a operaciones que involucran datos personales o acciones irreversibles (como enviar correos o transferir dinero), el modelo se detiene automáticamente y solicita confirmación humana. Combinado con la interfaz interactiva Magentic-UI, forma una verdadera línea de defensa colaborativa entre humanos y máquinas.
Código abierto, pero aún no listo para producción
El 24 de noviembre, Microsoft lanzó oficialmente Fara-7B bajo licencia MIT, disponible en Hugging Face y en la plataforma Microsoft Foundry, y soporta aplicaciones comerciales. Sin embargo, Microsoft admite que el modelo aún no cumple con los estándares para despliegue en entornos de producción, siendo principalmente para que desarrolladores realicen prototipos y validen funciones.
Este lanzamiento refleja un cambio importante: Microsoft ha declarado claramente que en el futuro no perseguirá modelos cada vez más grandes por sí mismos, sino que se enfocará en crear soluciones “pequeñas, inteligentes y seguras”. Además, planean introducir aprendizaje reforzado en entornos sandbox para entrenar el modelo de forma autónoma y mejorar aún más su potencial de autoaprendizaje.