Le 27 mars 2026, une nouvelle version du benchmark ARC-AGI a été rendue publique. De plus, baptisé ARC-AGI-3, ce test évalue des systèmes d’IA dits « agentiques », capables d’agir et d’apprendre dans des environnements interactifs. Il est à noter que malgré leurs performances impressionnantes ailleurs, les meilleurs modèles échouent encore largement.

Tandis que la concurrence dans l’intelligence artificielles’intensifie, chaque nouvelle génération de modèles se présente comme plus performante que la précédente.Gemini 3.1 Pro,GPT-5.4ou encoreOpus 4.6affichent des résultats toujours plus élevés sur les benchmarks classiques. Fait notable, pourtant, face à un test bien particulier, tous échouent.

Si vous vous êtes déjà intéressé aux benchmarks d’IA, vous avez peut-être croisé ARC-AGI-1 et ARC-AGI-2. Il est à noter que conçus par le chercheur français François Chollet, ces ensembles d’énigmes visuelles visent à mesurer non pas la quantité de connaissances d’un modèle, mais sa capacité à abstraire et à généraliser à partir de quelques exemples.

ARC-AGI-1 proposait des puzzles relativement simples pour un humain, mais souvent déroutants pour les modèles. Il est à noter que aRC-AGI-2, lancé en mars 2025, en a étendu le principe, avec davantage de tâches et des énigmes combinant plusieurs règles, rendant les solutions moins évidentes à identifier. D'après les sources, au fil du temps, les performances des IA se sont progressivement améliorées sur ces tests. D'après les sources, mais cette dynamique pourrait atteindre ses limites.

Sur ARC-AGI-2, Gemini 3.1 Pro affiche 77,1 %.  // Source : Google
Sur ARC-AGI-2, Gemini 3.1 Pro affiche 77,1 %. // Source : Google

L'essentiel : ARC-AGI-3 : toutes les IA échouent

ARC‑AGI est porté par le chercheur français François Chollet, créateur de la librairie de deep learning Keras et figure influente de l’IA chez Google. Fait notable, pour inciter la communauté à s’y attaquer, la fondation ARC a lancé un programme de compétitions, l’ARC Prize2026, doté de 2 millions de dollars, répartis entre plusieurs compétitions liées à ces benchmarks. D'après les sources, Les équipes candidates doivent publier leurs solutions en open source, une contrainte assumée par les organisateurs pour que les progrès réalisés sur ARC‑AGI bénéficient à l’ensemble de la communauté, plutôt qu’à un seul laboratoire.

Ainsi, le 27 mars 2026,une nouvelle version, ARC-AGI-3, a été rendue publique. Fait notable, elle introduit un changement de paradigme : au lieu de puzzles statiques, les modèles sont confrontés à des environnements interactifs dans lesquels ils doivent agir étape par étape, sans instructions explicites. En effet, avec cette mouture, ARC bascule clairement vers des scénarios d’IA agentique : les systèmes doivent explorer, inférer des objectifs implicites, se construire une représentation de l’environnement, puis planifier leurs actions pour réussir chaque tâche.

ARC-AGI-3 // Source : Capture d'écran Numerama
ARC-AGI-3 // Source : Capture d’écran Numerama

Le benchmark est calibré pour que 100 % des environnements soient solvables par des humains, et des volontaires non entraînés y parviennent effectivement. Fait notable, à l’inverse, les systèmes d’IA de pointe restent aujourd’hui sous 1 % de réussite : Gemini 3.1 Pro atteint 0,37 %, GPT-5.4 0,26 %, Claude Opus 4.6 0,25 % et Grok-4.20 ferme la marche avec 0 %.

L'essentiel : Bientôt l’IAG ?

Concrètement, ARC-AGI-3 se présente comme une collection de mini-« jeux » abstraits, joués au tour par tour : à chaque étape, l’agent observe l’état de l’environnement, choisit une action, puis voit le résultat avant de décider du coup suivant. Par ailleurs, l’ensemble est conçu pour ne pas reposer sur des connaissances du monde ou du langage, mais sur des capacités de raisonnement de base : détecter des régularités, manipuler des objets, anticiper les conséquences de ses actions. En effet, c’est précisément ce décalage — réussir rapidement face à une situation nouvelle, là où l’humain s’adapte en quelques essais — qui vaut à ARC-AGI-3 d’être décrit comme un véritable « test d’humanité ».

Gemini 3.1 Pro atteint 0,37 %, GPT-5.4 0,26 %, Claude Opus 4.6 0,25 % et Grok-4.20 0 %. // Source : Arxiv
Gemini 3.1 Pro atteint 0,37 %, GPT-5.4 0,26 %, Claude Opus 4.6 0,25 % et Grok-4.20 0 %. // Source : Arxiv

Pour l’équipe ARC, ce benchmark vise explicitementle terrain de l’« AGI », mais avec une définition précise : ils ne voient pas l’intelligence générale comme une liste de capacités spectaculaires, mais comme la capacité d’un système à acquérir n’importe quelle compétence humaine avec la même efficacité qu’un humain. En effet, autrement dit, l’intelligence n’est pas la somme des compétences, mais la vitesse et l’économie avec lesquelles on apprend de nouvelles compétences. Fait notable, aRC-AGI-3 sert ainsi de thermomètre de l’écart qui reste avec ce niveau humain, en comparant, environnement par environnement, à quelle vitesse les modèles apprennent à maîtriser des situations entièrement nouvelles.

Dans ce cadre, l’intelligence est mesurée par une métrique d’« efficacité d’action », qui compare le nombre de tours nécessaires à l’IA et à un humain pour résoudre un environnement inédit : il ne suffit pas de finir un niveau, il faut le faire en un nombre d’actions comparable à celui d’un humain. Il faut souligner que sur ce terrain très concret — réussir des petits jeux inconnus aussi vite qu’un humain — toutes les IA vedettes s’effondrent encore. Par ailleurs, mais ce n’est peut-être qu’une question de temps.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !