Microsoft Fara-7B dépasse largement GPT-4o en performance, comment un modèle de 7 milliards de paramètres peut-il effectuer des calculs en local en une seconde
Microsoft a lancé le Fara-7B, qui n’est pas simplement un autre modèle d’IA, mais qui a battu la croyance traditionnelle selon laquelle « plus un modèle est grand, plus il est intelligent » en utilisant des données concrètes. Ce « proxy d’utilisation informatique » de seulement 7 milliards de paramètres dépasse en performance le GPT-4o d’OpenAI sur plusieurs benchmarks, tout en pouvant fonctionner directement sur votre ordinateur personnel, sans dépendance au cloud.
Les chiffres parlent : pourquoi un petit modèle peut-il gagner
Dans le benchmark WebVoyager, Fara-7B atteint un taux de réussite de 73,5 %, surpassant directement le GPT-4o avec 65,1 %. Mieux encore, en termes d’efficacité — pour réaliser la même opération, il ne faut que 16 étapes, contre 41 pour le UI-TARS-1.5-7B de même niveau, soit une réduction de 60 % des étapes redondantes.
Ce n’est pas une coïncidence, mais le résultat de l’adoption par Microsoft d’une méthode d’entraînement basée sur la distillation de connaissance. En intégrant 145 000 exemples de navigation générés par le système multi-agent Magentic-One, Microsoft a réussi à compresser la capacité d’un grand modèle dans un modèle simplifié. La base est le Qwen2.5-VL-7B, doté d’une fenêtre de contexte ultra-longue de 128 000 tokens, permettant une compréhension visuelle à un niveau inédit.
Voir l’écran, cliquer avec la souris : la nouvelle définition de l’automatisation par inférence pixel-par-pixel
L’atout de Fara-7B réside dans sa logique de « manipulation d’écran ». Contrairement aux méthodes traditionnelles qui s’appuient sur la structure du code du navigateur, Fara-7B effectue toute son inférence à partir de données pixel-par-pixel — il lit des captures d’écran, prédit les clics de souris, la saisie de texte, le défilement de page, etc. Même face à des sites web chaotiques en code, il fonctionne normalement.
Yash Lara, chef de produit chez Microsoft Research, qualifie cela de « souveraineté pixel », permettant aux industries hautement réglementées comme la santé ou la finance de déployer en toute sécurité en local. Cela signifie que les informations sensibles des entreprises ne doivent plus être téléchargées dans le cloud, avec une latence considérablement réduite et une véritable protection de la vie privée.
Mécanismes de sécurité : une ligne de défense automatique pour protéger les opérations clés
Il est important de noter que Fara-7B intègre un mécanisme de « points de confirmation clés ». Lorsqu’il s’agit de manipuler des données personnelles ou d’effectuer des opérations irréversibles (comme envoyer un email ou transférer de l’argent), le modèle se met en pause automatiquement et demande une confirmation humaine. Associé à l’interface d’interaction Magentic-UI, cela forme une véritable ligne de défense collaboratif homme-machine.
Open source, mais pas encore prêt pour la production
Le 24 novembre, Microsoft a officiellement publié Fara-7B sous licence MIT, disponible sur Hugging Face et la plateforme Microsoft Foundry, avec support pour des applications commerciales. Cependant, Microsoft admet que — pour l’instant — le modèle n’atteint pas encore les standards de déploiement en environnement de production, étant principalement destiné aux développeurs pour des prototypes et des tests de fonctionnalités.
Ce lancement marque une étape importante : Microsoft indique clairement qu’à l’avenir, ils ne poursuivront pas aveuglément la taille des modèles, mais se concentreront sur la création de solutions « petites, intelligentes et sécurisées ». Des plans sont également en cours pour intégrer l’apprentissage par renforcement dans un environnement sandbox afin d’améliorer encore la capacité d’auto-apprentissage du modèle.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Microsoft Fara-7B dépasse largement GPT-4o en performance, comment un modèle de 7 milliards de paramètres peut-il effectuer des calculs en local en une seconde
Microsoft a lancé le Fara-7B, qui n’est pas simplement un autre modèle d’IA, mais qui a battu la croyance traditionnelle selon laquelle « plus un modèle est grand, plus il est intelligent » en utilisant des données concrètes. Ce « proxy d’utilisation informatique » de seulement 7 milliards de paramètres dépasse en performance le GPT-4o d’OpenAI sur plusieurs benchmarks, tout en pouvant fonctionner directement sur votre ordinateur personnel, sans dépendance au cloud.
Les chiffres parlent : pourquoi un petit modèle peut-il gagner
Dans le benchmark WebVoyager, Fara-7B atteint un taux de réussite de 73,5 %, surpassant directement le GPT-4o avec 65,1 %. Mieux encore, en termes d’efficacité — pour réaliser la même opération, il ne faut que 16 étapes, contre 41 pour le UI-TARS-1.5-7B de même niveau, soit une réduction de 60 % des étapes redondantes.
Ce n’est pas une coïncidence, mais le résultat de l’adoption par Microsoft d’une méthode d’entraînement basée sur la distillation de connaissance. En intégrant 145 000 exemples de navigation générés par le système multi-agent Magentic-One, Microsoft a réussi à compresser la capacité d’un grand modèle dans un modèle simplifié. La base est le Qwen2.5-VL-7B, doté d’une fenêtre de contexte ultra-longue de 128 000 tokens, permettant une compréhension visuelle à un niveau inédit.
Voir l’écran, cliquer avec la souris : la nouvelle définition de l’automatisation par inférence pixel-par-pixel
L’atout de Fara-7B réside dans sa logique de « manipulation d’écran ». Contrairement aux méthodes traditionnelles qui s’appuient sur la structure du code du navigateur, Fara-7B effectue toute son inférence à partir de données pixel-par-pixel — il lit des captures d’écran, prédit les clics de souris, la saisie de texte, le défilement de page, etc. Même face à des sites web chaotiques en code, il fonctionne normalement.
Yash Lara, chef de produit chez Microsoft Research, qualifie cela de « souveraineté pixel », permettant aux industries hautement réglementées comme la santé ou la finance de déployer en toute sécurité en local. Cela signifie que les informations sensibles des entreprises ne doivent plus être téléchargées dans le cloud, avec une latence considérablement réduite et une véritable protection de la vie privée.
Mécanismes de sécurité : une ligne de défense automatique pour protéger les opérations clés
Il est important de noter que Fara-7B intègre un mécanisme de « points de confirmation clés ». Lorsqu’il s’agit de manipuler des données personnelles ou d’effectuer des opérations irréversibles (comme envoyer un email ou transférer de l’argent), le modèle se met en pause automatiquement et demande une confirmation humaine. Associé à l’interface d’interaction Magentic-UI, cela forme une véritable ligne de défense collaboratif homme-machine.
Open source, mais pas encore prêt pour la production
Le 24 novembre, Microsoft a officiellement publié Fara-7B sous licence MIT, disponible sur Hugging Face et la plateforme Microsoft Foundry, avec support pour des applications commerciales. Cependant, Microsoft admet que — pour l’instant — le modèle n’atteint pas encore les standards de déploiement en environnement de production, étant principalement destiné aux développeurs pour des prototypes et des tests de fonctionnalités.
Ce lancement marque une étape importante : Microsoft indique clairement qu’à l’avenir, ils ne poursuivront pas aveuglément la taille des modèles, mais se concentreront sur la création de solutions « petites, intelligentes et sécurisées ». Des plans sont également en cours pour intégrer l’apprentissage par renforcement dans un environnement sandbox afin d’améliorer encore la capacité d’auto-apprentissage du modèle.