Laisser l'IA coder pour gagner 400 000 dollars ?

Question

Auteur : Tan Zixin, responsable de la technologie

Source de l'image : générée par une IA sans frontières

Les grands modèles de langage (LLM) changent actuellement la manière dont le logiciel est développé. La question de savoir si l'IA peut maintenant remplacer massivement les programmeurs humains est un sujet d'actualité dans l'industrie.

En seulement deux ans, les grands modèles d'IA sont passés de la résolution de problèmes informatiques de base à rivaliser avec les humains dans des compétitions de programmation internationales, comme OpenAI o1, qui a remporté la médaille d'or lors de sa participation aux Olympiades internationales d'informatique (IOI) 2024 dans des conditions identiques à celles des participants humains, démontrant un potentiel de programmation puissant.

En même temps, le taux d'itération de l'IA s'accélère également. Sur le référentiel d'évaluation de génération de code SWE-Bench Verified, en août 2024, le score de GPT-4o était de 33 %, mais avec la nouvelle génération de modèle o3, le score a doublé pour atteindre 72 %.

Afin de mieux évaluer les capacités en ingénierie logicielle des modèles d'IA dans le monde réel, aujourd'hui, OpenAI a lancé en open source un tout nouveau référentiel d'évaluation, SWE-Lancer, qui lie pour la première fois les performances des modèles à la valeur monétaire.

SWE-Lancer est un test de référence comprenant plus de 1400 missions d'ingénierie logicielle indépendantes de la plateforme Upwork, d'une valeur totale d'environ 1 million de dollars américains dans le monde réel. Combien d'argent l'IA peut-elle gagner en programmant?

« Fonctionnalités » du nouveau benchmark

Le prix de base de la tâche SWE-Lancer reflète la véritable valeur marchande, plus la tâche est difficile, plus la rémunération est élevée.

Cela inclut à la fois des tâches d'ingénierie indépendantes et des tâches de gestion, avec la possibilité de choisir entre les solutions techniques. Cette norme s'adresse non seulement aux programmeurs, mais aussi à toute l'équipe de développement, y compris les architectes et les gestionnaires.

Par rapport aux benchmarks de test en génie logiciel précédents, SWE-Lancer présente plusieurs avantages, tels que :

Les 1488 tâches représentent la rémunération réelle que l'employeur paie aux ingénieurs indépendants, offrant une gamme naturelle de difficultés déterminées par le marché, avec des rémunérations allant de 250 USD à 32 000 USD, ce qui est assez considérable.

35% des tâches ont une valeur supérieure à 1000 dollars, 34% des tâches ont une valeur comprise entre 500 et 1000 dollars. Le groupe de tâches de contribution individuelle (IC) en génie logiciel (SWE) comprend 764 tâches d'une valeur totale de 41.4775 millions de dollars ; le groupe de tâches de gestion SWE comprend 724 tâches d'une valeur totale de 58.5225 millions de dollars.

2、Dans le monde réel de l'ingénierie logicielle à grande échelle, il est nécessaire non seulement de coder concrètement et de développer, mais aussi d'avoir la capacité de gérer la coordination technique, ce test de référence utilise des données du monde réel pour évaluer le modèle en tant que rôle de "directeur technique" SWE.

3、Avoir la capacité avancée d'évaluation de l'ingénierie logicielle complète. SWE-Lancer représente l'ingénierie logicielle du monde réel, car ses missions proviennent d'une plateforme avec des millions d'utilisateurs réels.

Les tâches impliquent le développement d'ingénierie mobile et web, l'interaction avec les API, les navigateurs et les applications externes, ainsi que la validation et la reproduction de problèmes complexes.

Par exemple, certaines tâches consistent à dépenser 250 dollars pour améliorer la fiabilité (résoudre le problème d'appel d'API double déclenchement), 1000 dollars pour corriger les bogues (résoudre les problèmes de permissions différents) et 16 000 dollars pour implémenter de nouvelles fonctionnalités (ajout de la prise en charge de la lecture vidéo intégrée dans l'application sur le Web, iOS, Android et le bureau, etc.).

Diversité des domaines. 74 % des tâches d’IC SWE et 76 % des tâches de gestion SWE impliquent une logique d’application, tandis que 17 % des tâches IC SWE et 18 % des tâches de gestion SWE impliquent le développement UI/UX.

En termes de difficulté des tâches, les tâches sélectionnées par SWE-Lancer sont très difficiles, et les tâches de l’ensemble de données open source prennent en moyenne 26 jours à résoudre sur Github.

De plus, OpenAI a déclaré que la collecte de données était impartiale. Ils ont sélectionné des échantillons de tâches représentatifs sur Upwork et engagé 100 ingénieurs logiciels professionnels pour rédiger et vérifier des tests de bout en bout pour toutes les tâches.

Capacité de gain de codage AI PK

Bien que de nombreux grands noms de la technologie continuent d’affirmer que les modèles d’IA peuvent remplacer les ingénieurs de « bas niveau », il reste un grand point d’interrogation quant à savoir si les entreprises peuvent remplacer complètement les ingénieurs logiciels humains par des LLM.

Les premiers résultats des tests ont montré que, sur l'ensemble complet des données SWE-Lancer, les modèles de joueurs d'IA Gold testés rapportent actuellement des rendements bien inférieurs à un retour potentiel total de 1 000 000 $.

Dans l'ensemble, toutes les versions du modèle performeraient mieux que la tâche de gestion SWE IC, tandis que la tâche SWE IC reste largement non résolue par les modèles d'IA. Actuellement, le modèle testé le plus performant est le Claude 3.5 Sonnet développé par le concurrent d'OpenAI, Anthropic.

Sur la tâche IC SWE, le taux de réussite unique et le rendement de tous les modèles étaient inférieurs à 30 %, et sur la tâche de gestion SWE, le score le plus performant du modèle Claude 3.5 Sonnet était de 45 %.

Claude 3.5 Sonnet a montré de solides performances dans les tâches IC SWE et SWE management, surpassant le modèle o1, deuxième meilleur performer, de 9,7% dans la tâche IC SWE et de 3,4% dans la tâche SWE management.

Si converti en revenus, le meilleur performant Claude 3.5 Sonnet génère un chiffre d'affaires total de plus de 400 000 dollars sur l'ensemble des données.

Il est à noter qu'un volume de calcul plus élevé sera d'une grande aide pour la « AI making money ».

Dans le cadre de la mission IC SWE, les chercheurs ont mené des expériences sur le modèle o1 utilisant des outils de raisonnement en profondeur, ce qui a montré qu'une charge de calcul de raisonnement plus élevée pouvait augmenter le taux de réussite unique de 9,3% à 16,5%, et les bénéfices correspondants sont passés de 1,6 milliers de dollars à 2,9 milliers de dollars, le rendement passant de 6,8% à 12,1%.

Les chercheurs ont conclu que, bien que le meilleur modèle, Claude 3.5 Sonnet, ait résolu 26,2 % des problèmes d’IC SWE, la plupart des solutions restantes présentent encore des bogues et qu’il reste encore beaucoup de travail à faire pour parvenir à un déploiement fiable. Il est suivi de o1 puis de GPT-4o, et le taux de réussite unique pour les tâches administratives est généralement plus du double du taux de réussite unique pour les tâches IC SWE.

Cela signifie également que même si l’idée que les agents d’IA remplacent les ingénieurs logiciels humains est très médiatisée, les entreprises doivent encore réfléchir à deux fois à la façon dont les modèles d’IA peuvent résoudre certains problèmes de codage de « bas niveau », mais pas les ingénieurs logiciels de « bas niveau », car ils ne peuvent pas comprendre pourquoi certaines erreurs de code existent et continuent de faire des erreurs plus étendues.

Le cadre d'évaluation actuel ne prend pas en charge les entrées multimodales, de plus, les chercheurs n'ont pas encore évalué le "taux de rendement", par exemple en comparant la rémunération versée aux pigistes et les coûts d'utilisation de l'API lors de l'achèvement d'une tâche, ce sera un point focal pour la prochaine étape de ce benchmark.

Être un programmeur « amélioré par l’IA »

Pour l'instant, il semble que l'IA ait encore un long chemin à parcourir pour remplacer véritablement les programmeurs humains, car développer un projet d'ingénierie logicielle ne se résume pas simplement à générer du code selon les spécifications.

Par exemple, les programmeurs sont souvent confrontés à des problèmes de demande client extrêmement complexes, abstraits et flous, ce qui nécessite une compréhension approfondie des principes technologiques, de la logique métier et de l'architecture système. Lors de l'optimisation de l'architecture logicielle complexe, les programmeurs humains peuvent prendre en compte de manière exhaustive des facteurs tels que la scalabilité, la maintenabilité et les performances futures du système, tandis que l'IA pourrait avoir du mal à faire des analyses et des jugements complets.

De plus, la programmation ne consiste pas seulement à mettre en œuvre la logique existante, mais nécessite également beaucoup de créativité et de pensée innovante, et les programmeurs doivent concevoir de nouveaux algorithmes, concevoir des interfaces logicielles et des méthodes d’interaction uniques, etc., et ces idées et solutions vraiment nouvelles sont les lacunes de l’IA.

Les programmeurs doivent généralement communiquer et collaborer avec les membres de l'équipe, les clients et d'autres parties prenantes, comprendre les besoins de chacun et leur réalisabilité, exprimer clairement leurs points de vue, collaborer avec les autres pour mener à bien les projets. De plus, les programmeurs humains ont la capacité d'apprendre en continu et de s'adapter aux nouveaux changements. Ils peuvent rapidement acquérir de nouvelles connaissances et compétences et les appliquer à des projets concrets, tandis qu'un modèle AI réussi nécessite divers tests de formation.

L'industrie du développement logiciel est également soumise à diverses contraintes légales et réglementaires, telles que la protection de la propriété intellectuelle, la protection des données et les licences logicielles, l'intelligence artificielle pourrait avoir du mal à comprendre et à respecter pleinement ces exigences légales, ce qui pourrait entraîner des risques juridiques ou des litiges de responsabilité.

À long terme, la substitution des postes de programmeurs par les progrès de la technologie de l'IA reste présente, mais à court terme, c'est le "programmeur amélioré par l'IA" qui est dominant, et la maîtrise des derniers outils d'IA est l'une des compétences clés des programmeurs excellents.

Gokseltopcu · Accepted Answer

1000x Vibes 🤑