EN BREF
|
La fondation ARC Prize a récemment mis à jour son test d’intelligence artificielle générale, dénommé ARC-AGI-2, dans le but de mieux évaluer la progression des modèles d’IA. Ce test, qui s’avère accessible pour les humains, révèle pourtant des performances décevantes chez les chatbots actuels. L’objectif est de tendre vers une intelligence artificielle capable de rivaliser avec l’intelligence humaine, mais le chemin reste semé d’embûches.
Sommaire
ToggleUne révision nécessaire des tests d’IA
Le test original ARC-AGI avait pour mission de mesurer les progrès dans le domaine de l’IA. Cependant, suite à l’émergence du modèle o3 d’OpenAI, il s’est avéré que ce dernier, bien qu’il ait atteint 75,7 % sur la version antérieure, n’a pas réussi à dépasser 4 % avec la nouvelle version. Cette situation a poussé la fondation ARC Prize à revoir son approche et à proposer une version améliorée qui vise à corriger les lacunes constatées.
Une approche différente avec des puzzles
Contrairement à un ensemble traditionnel de questions, le test ARC-AGI-2 se base sur des puzzles nécessitant l’identification et la reproduction de transformations visuelles. Les résultats montrent un score moyen de 60 % chez 400 humains, tandis que la plupart des modèles d’IA tournent autour de 1 %. Ce test corrige les failles du précédent, évitant que les IA n’accèdent aux réponses par la force brute, en mettant l’accent sur l’efficacité à résoudre des problèmes.
Les nouvelles attentes en matière d’intelligence
Selon Greg Kamradt, cofondateur de la fondation ARC Prize, la définition de l’intelligence ne se limite pas à la capacité de résoudre des tâches ou d’obtenir de bons résultats. Ce qui importe réellement, c’est l’efficacité avec laquelle ces compétences sont acquises et déployées. La question centrale devient alors : « À quel coût et quel niveau d’efficacité l’IA peut-elle exécuter ces tâches ? »
Un défi avec une récompense substantielle
La fondation a également lancé un concours promettant un grand prix de 700 000 dollars. Pour remporter cette somme, un modèle d’IA doit atteindre un score de 85 % tout en maintenant un coût inférieur à 0,42 dollar par tâche. La référence à OpenAI o3, qui a nécessité 200 dollars par tâche pour un score de 4 %, souligne l’ampleur du défi à relever. Les résultats des candidats, s’il y en a, seront dévoilés le 5 décembre 2025.
Engagement envers l’accessibilité
En parallèle, la fondation ARC Prize a rendu les puzzles du test accessibles aux humains via son site internet, favorisant ainsi une participation plus large à cette expérience. Cette initiative met en lumière la volonté d’impliquer le grand public dans l’évaluation des capacités des intelligences artificielles, tout en soulignant l’écart toujours présent entre l’IA actuelle et l’objectif d’une véritable intelligence artificielle générale.