Les modèles dits « de raisonnement » s’effondrent quand il faut raisonner sérieusement
🎶 C’est juste une illusion, comme une bulle de savon 🎶
DeepSeek-R1, les modèles o1 et o3 d’OpenAI, Claude 3.7 Sonnet Thinking ou encore Gemini Thinking. Ces nouveaux modèles censés avoir les capacités de « raisonner » en donnent simplement « l’illusion », selon des chercheurs d’Apple qui leur ont fait passer des tests simples comme celui des tours de Hanoï.
Dans un article mis en ligne sur le site d’Apple, des chercheurs de l’entreprise exposent les limites des modèles dits « de raisonnement » tels que DeepSeek-R1, o1 ou Claude 3.7 Sonnet Thinking. Leur article (non relu par des pairs et mis en ligne [PDF] en dehors des pratiques de la recherche) affirme que ces modèles donnent l’« illusion de penser » alors qu’ils ont des « limites fondamentales ». Leur justesse s’effondre même, selon ces chercheurs, au-delà d’une certaine complexité.
Meilleurs que des docteurs, vraiment ?
En septembre dernier, OpenAI affirmait doctement que son modèle o1, « dépassait le niveau d’un docteur [human PhD-level accuracy] » sur un benchmark de physique, de biologie et de chimie (Le GPQA, créé en 2023 par des chercheurs de l’Université de New York, d’Anthropic et de la startup Cohere). L’entreprise tempérait un peu son ardeur plus loin en précisant que « ces résultats ne signifient pas que o1 est plus compétent qu’un docteur à tous égards, mais seulement que le modèle est plus performant pour résoudre certains problèmes qu’un docteur serait censé résoudre ».
Depuis, comme le remarquait Ars Technica déjà en mars, l’industrie de l’IA a un nouveau terme à la mode : « PhD-level AI ». Des IA du niveau d’un docteur ? Mais en quoi ? Le benchmark d’OpenAI se basait, en fait, sur la comparaison des réponses à un questionnaire à choix multiples et non sur celle de résolutions de problèmes. Un docteur n’est pas formé pour sortir de son cerveau des réponses à des questions très compliquées mais pour en formuler, établir des projets de recherche, mettre en place des protocoles et trouver de nouvelles réponses.
Des casse-têtes pour mieux évaluer
Comme le soulevait déjà en octobre dernier la même équipe de chercheurs d’Apple, les benchmarks des IA génératives nous désinforment souvent. Ici, ils proposent d’autres façons d’évaluer les modèles de raisonnement. Les chercheurs d’Apple proposent notamment plusieurs casse-têtes à tester : le passage de la rivière, les tours de Hanoï, les soldats de Conway ou encore celui du « blocks world ».
« Ces environnements permettent de manier avec précision la complexité des problèmes tout en maintenant des processus logiques cohérents, ce qui permet une analyse plus rigoureuse des schémas de raisonnement et des limites », justifient-ils.
Les tours de Hanoï, par exemple, sont un casse-tête connu tant du côté des psychologues et des neuropsychologues pour tester certaines fonctions exécutives, que du côté des développeurs comme exercice de programmation lorsqu’on est étudiant.
Des disques de diamètres différents sont posés en pyramide les uns au-dessus des autres sur une tige (voir ci-dessous). Il faut reconstituer cette pyramide sur une tige d’arrivée en déplaçant un disque à la fois et sans poser un disque sur un disque plus petit. En le faisant avec le moins de coups possibles, évidemment. On comprend assez rapidement que, plus il y a de disques, plus c’est complexe (si vous voulez essayer, on peut y jouer par ici). La complexité des autres casse-têtes augmente aussi avec l’augmentation d’un paramètre.

Au-delà d’une certaine complexité, c’est l’effondrement
Les cinq modèles « de raisonnement » testés (o3-mini dans 2 configurations différentes, DeepSeek-R1, DeepSeek-R1-Qwen-32B et Claude-3.7-Sonnet thinking) réagissent de la même façon : « la justesse diminue progressivement au fur et à mesure que la complexité du problème augmente jusqu’à l’effondrement complet (justesse nulle) au-delà d’un seuil de complexité spécifique au modèle ».

Ces modèles dits « de raisonnement » utilisent ce que les chercheurs appellent des « thinking tokens » (qu’on peut traduire par « jetons de réflexions ») inventés il y a un an par des informaticiens de l’Université de Prague.
En observant la seconde ligne de graphiques ci-dessus, on peut voir que « les modèles de raisonnement augmentent initialement leurs jetons de réflexion proportionnellement à la complexité du problème » mais qu’ « à l’approche d’un seuil critique – qui correspond étroitement à leur point d’effondrement de leur justesse – les modèles commencent de manière contre-intuitive à réduire leur effort de raisonnement en dépit de l’augmentation de la difficulté du problème ». Bref, ce mécanisme ne fonctionne plus à partir d’une certaine complexité.
Les modèles de langage classiques meilleurs pour des problèmes simples
Les chercheurs d’Apple ont voulu comparer les performances de ces modèles « de raisonnement » aux modèles de langage classiques en fonction du nombre de jetons utilisés. Ils se sont aperçus que, « les modèles de langage classiques sont meilleurs pour des problèmes simples, les modèles de raisonnement présentent des avantages en cas de complexité moyenne, tandis que les deux approches échouent en cas de complexité élevée, quelle que soit l’allocation de calcul ».

L’article montre aussi que les modèles « de raisonnement » gaspillent de la puissance de calcul pour les problèmes simples : alors qu’ils ont trouvé la bonne solution dès le début, ils continuent à calculer d’autres possibilités qui sont erronées. Ils appellent ça, de l’« overthinking » (surréflexion).
« Ces observations remettent en question les hypothèses dominantes sur les capacités des modèles de raisonnement et suggèrent que les approches actuelles peuvent se heurter à des obstacles fondamentaux à un raisonnement généralisable », concluent-ils.
Auteur : Martin Clavey
Aller à la source