GSM-Symbolique : Comprendre les limites du raisonnement mathématique dans les grands modèles de langage”

Via Gary Marcus https://garymarcus.substack.com/p/llms-dont-do-formal-reasoning-and

Les progrès récents des grands modèles de langage (LLM) ont suscité l’intérêt pour leurs capacités de raisonnement formel, en particulier en mathématiques. Le benchmark GSM8K est largement utilisé pour évaluer le raisonnement mathématique des modèles sur des questions de niveau scolaire. Bien que les performances des LLM sur le GSM8K se soient considérablement améliorées ces dernières années, il n’est pas certain que leurs capacités de raisonnement mathématique aient réellement progressé, ce qui soulève des questions quant à la fiabilité des mesures rapportées.

Pour répondre à ces préoccupations, nous menons une étude à grande échelle sur plusieurs modèles ouverts et fermés de pointe. Pour surmonter les limites des évaluations existantes, nous introduisons GSM-Symbolic, un benchmark amélioré créé à partir de modèles symboliques qui permettent la génération d’un ensemble varié de questions. GSM-Symbolic permet des évaluations plus contrôlables, fournissant des informations clés et des mesures plus fiables pour mesurer les capacités de raisonnement des modèles.

Nos résultats révèlent que les LLM présentent une variance notable lorsqu’ils répondent à différentes instanciations de la même question. En particulier, la performance de tous les modèles diminue lorsque seules les valeurs numériques de la question sont modifiées dans le benchmark GSM-Symbolique. En outre, nous étudions la fragilité du raisonnement mathématique dans ces modèles et démontrons que leurs performances se détériorent de manière significative à mesure que le nombre de clauses dans une question augmente.

Nous émettons l’hypothèse que ce déclin est dû au fait que les LLM actuels ne sont pas capables d’un véritable raisonnement logique ; au lieu de cela, ils tentent de reproduire les étapes de raisonnement observées dans leurs données d’apprentissage. Lorsque nous ajoutons une seule clause qui semble pertinente à la question, nous observons des baisses de performance significatives (jusqu’à 65%) dans tous les modèles de pointe, même si la clause ajoutée ne contribue pas à la chaîne de raisonnement nécessaire pour atteindre la réponse finale.

Dans l’ensemble, notre travail fournit une compréhension plus nuancée des capacités et des limites des LLMs dans le raisonnement mathématique.

Résumé de https://arxiv.org/pdf/2410.05229 par Iman Mirzadeh, Oncel Tuzel, Keivan Alizadeh, Samy Bengio, Hooman Shahrokhi, Mehrdad Farajtabar