GSM-Symbolique : Comprendre les limites du raisonnement mathématique dans les grands modèles de langage”

Via Gary Marcus https://garymarcus.substack.com/p/llms-dont-do-formal-reasoning-and

Les progrès récents des grands modèles de langage (LLM) ont suscité l’intérêt pour leurs capacités de raisonnement formel, en particulier en mathématiques. Le benchmark GSM8K est largement utilisé pour évaluer le raisonnement mathématique des modèles sur des questions de niveau scolaire. Bien que les performances des LLM sur le GSM8K se soient considérablement améliorées ces dernières années, il n’est pas certain que leurs capacités de raisonnement mathématique aient réellement progressé, ce qui soulève des questions quant à la fiabilité des mesures rapportées.

Pour répondre à ces préoccupations, nous menons une étude à grande échelle sur plusieurs modèles ouverts et fermés de pointe. Pour surmonter les limites des évaluations existantes, nous introduisons GSM-Symbolic, un benchmark amélioré créé à partir de modèles symboliques qui permettent la génération d’un ensemble varié de questions. GSM-Symbolic permet des évaluations plus contrôlables, fournissant des informations clés et des mesures plus fiables pour mesurer les capacités de raisonnement des modèles.

Nos résultats révèlent que les LLM présentent une variance notable lorsqu’ils répondent à différentes instanciations de la même question. En particulier, la performance de tous les modèles diminue lorsque seules les valeurs numériques de la question sont modifiées dans le benchmark GSM-Symbolique. En outre, nous étudions la fragilité du raisonnement mathématique dans ces modèles et démontrons que leurs performances se détériorent de manière significative à mesure que le nombre de clauses dans une question augmente.

Nous émettons l’hypothèse que ce déclin est dû au fait que les LLM actuels ne sont pas capables d’un véritable raisonnement logique ; au lieu de cela, ils tentent de reproduire les étapes de raisonnement observées dans leurs données d’apprentissage. Lorsque nous ajoutons une seule clause qui semble pertinente à la question, nous observons des baisses de performance significatives (jusqu’à 65%) dans tous les modèles de pointe, même si la clause ajoutée ne contribue pas à la chaîne de raisonnement nécessaire pour atteindre la réponse finale.

Dans l’ensemble, notre travail fournit une compréhension plus nuancée des capacités et des limites des LLMs dans le raisonnement mathématique.

Résumé de https://arxiv.org/pdf/2410.05229 par Iman Mirzadeh, Oncel Tuzel, Keivan Alizadeh, Samy Bengio, Hooman Shahrokhi, Mehrdad Farajtabar

Nul n’est expert en tout et la vérité n’est que rarement univoque.

Outre la politique, ce blog se veut aussi défenseur du logiciel libre, cheval de bataille de l’un d’entre nous depuis 10 ou 15 ans. Nous reprenons les articles et informations publiées par les meilleurs et contribuons par quelques versements irréguliers en fonction de nos rentrées à l’une ou l’autre association que nous lisons avec intérêt.

Évidemment, le 1e moteur en France en matière de logiciel libre pour l’usage tout un chacun, c’est Framasoft. Et, chouette, chouette, le Framablog qui en émane a un flux RSS, comme ici sous la rubrique “Suivre le site”. Un flux RSS, c’est ce chouette machin qui permet de se tenir au courant de l’actualité de 10, 30, 80 sites sans passer ses journées à aller d’un site à l’autre pour dégotter les nouveautés du jour, pas toujours bien mises en évidence.

Il y a cependant un problème avec le flux RSS de Framablog que nous aimerions pourtant pouvoir vous recommander sans arrière-pensée : si sur le plan informatique, il est superbe, sur le plan de la politique, notamment internationale (mais qu’est-ce que ça fout là, d’ailleurs), le fil est squatté par un membre très actif et bénévole (?) du groupe dont les idées ne sont vraiment pas du même genre que les idées du logiciel libre : soit “liberté, égalité, fraternité” pour faire court.

Chaque lundi, ce monsieur Khrys, dont la compétence en informatique est sûrement à saluer mais qui n’a visiblement aucune expertise en relations internationales, nous assène le résumé des éléments qu’il pense frappant mais sont les plus abjects et/ou les plus farfelus de la communication mainstream occidentale dont Libération et Le Monde sont les principales caisses de résonance en français. Et le résultat est à gerber (désolé). Ce n’est pas son métier et donc il n’a pas le temps de consulter 10 à 120 sources en diverses langues comme les experts compétents (j’ai les noms). Il n’a pas l’expérience militaire d’un Jacques Baud et de quelques autres militaires, diplomates et espions retraités (les autres sont soumis au devoir de réserve, en France comme ailleurs). Khrys n’en a pas la culture spécialisée ni la formation (nous sommes diplômés en journalisme) et ne connaît visiblement pas, par exemple, l’abc de la propagande de guerre qu’ Anne Morelli définit superbement dans son livre paru en 2001 :

  1. nous ne voulons pas la guerre ;
  2. le camp adverse est le seul responsable de la guerre ;
  3. le chef du camp adverse a le visage du diable (ou « l’affreux de service ») ;
  4. c’est une cause noble que nous défendons et non des intérêts particuliers ;
  5. l’ennemi provoque sciemment des atrocités, et si nous commettons des bavures, c’est involontairement ;
  6. l’ennemi utilise des armes non autorisées ;
  7. nous subissons très peu de pertes, les pertes de l’ennemi sont énormes ;
  8. les artistes et les intellectuels soutiennent notre cause ;
  9. notre cause a un caractère sacré ;
  10. ceux (et celles) qui mettent en doute notre propagande sont des traîtres.

Dans le cas particulier de l’Ukraine, nous pouvons relever depuis un an dans notre presse aux ordres, que les “mauvais” définis par Washington violent à tour de bras, massacrent les civils et sont dirigés par un fou sanguinaire porté par des hordes de barbares (sic ou presque). Pendant, ce temps, “nos” alliés se battent avec des fleurs, portent des croix gammés et autres insignes de la SS pour l’esthétique des motifs, se réfèrent et glorifient constamment des criminels de guerre qui ont dirigés des génocides de Polonais et de juifs sous l’aile d’Hitler car ils n’ont agi ainsi que pour lutter contre le réchauffement climatique. Et je vous en passe, on n’est pas là pour ça.

Visiblement, sur ces sujets Khrys a avalé l’appât et l’hameçon et le flotteur avec. Les éléments de propagande qu’il répercute de manière univoque confinent à l’absurde. Deux exemples criants : les Russes auraient une politique de viols systématiques “viagra assisted” (quelles preuves ?) dans des populations qui sont leurs alliées et qu’ils prétendent défendre contre des néo-nazis avérés qui leur font la guerre depuis 2015 (15.000 morts oubliés par Libération). À propos d’Azov & C°, je vous conseille de comparer la presse mainstream occidentale entre 2014 et 2020 et celle de 2022, c’est instructif en matière de propagande. Deuzio, dans cette guerre où selon les chiffres de Washington, l’artillerie Russe déverse au moins 2 (ou 5) fois autant d’obus que le régime de Kiev, les pertes civiles sont inférieures à 25% de celles des militaires. C’est beaucoup trop mais c’est ridicule au regard de performances de notre Otan où les chiffres sont généralement au moins à égalité. Ces défenseurs attentifs seraient pourtant des massacreurs calculés de la population qui leur est alliée !? Non, mais allô quoi !

Autre souci, leurs accusateurs n’ont certes pas les mains propres et sont donc mal placés pour être fiables dans leurs leçons de morale: dois-je encore une fois rappeler Sainte Madeleine Allbright pour qui 500.000 enfants irakiens morts étaient un prix correct pour leur avoir apporté la “liberté” (sic). Ou le mensonge battu en brèche, trop tard, des couveuses du Koweit qui a aussi justifié l’agression US contre ce même Irak. Ou les soi-disant viols commis par les soldats de Kadafi soutenus par une distribution gratuite de Viagra (tiens, un bis ?), une accusation aussi gratuite qu’imaginaire mais qui “rend” encore mieux aux USA qu’en Europe. A contrario, puis-je rappeler qu’il est prouvé par des tiers indépendant que les populations de Serbie et d’Irak sont toujours aujourd’hui soumises à la pollution radioactive et mutagène des munitions anti-tank à l’Uraniuim 238 utilisées à profusion par les USA. Etc…

Oui mais l’agression de l’Ukraine, ce serait différent : c’est un pays démocratique (hein ?) Européen (comme la Serbie, non ?) agressé par plus gros que lui (allez dire ça à l’île de Grenade) sans raisons valides (pardon, excusez-moi ?) par une “dictature”… qui a pourtant élu dans les temps son président en 2018 et son corps législatif en 2021. Ouais, les élections n’étaient pas parfaites mais Russiagate, Corbyn, Fillon et Cambridge Analytica sont 4 affaires qui ont renversé le cours de 4 élections majeures, et nos plateaux TV sont “à peine” orientés en faveur du pouvoir en place ou de leur milliardaire de propriétaire, soyons donc modestes.

Toutes ces questions fondamentales ne sont même pas évoquées par Khrys, notre vaillant chevalier de l’ordre occidental sur Framablog. Alors, bien sûr, il a toute liberté éditoriale et c’est très bien. Cependant quand l’on prend des positions aussi peu expertes dans un fil qui est dédié à un tout autre sujet, l’informatique je le rappelle, il serait parfois utile d’avoir un peu d’humilité et donc d’être un peu moins tranché et univoque. Ou alors de s’abstenir et de parler uniquement de son pays où il y a déjà beaucoup, beaucoup à dire, hélas et où visiblement, il a de très bonnes sources, originales et populaires. Bravo.

Dans la guerre mondiale menée par les néo-lib’ et les néo-cons’ occidentaux depuis 1991 comme par tout autre groupe ou pays en tous temps, la vérité est complexe et n’appartient jamais aux médias d’un seul camp. Bien sûr, en parler de manière informée demande du temps et parfois aussi du courage et ça, c’est nettement plus difficile que d’aboyer avec les loups en relayant les communiqués de presse des agences de comm’ déguisés en articles indépendants qui sont pourtant partout identiques en occident. Mais ce dernier point, on en reparlera ultérieurement, si pas nous-mêmes au moins via des sources expertes qui ont creusé ce sujet de manière professionnelle, elles.

C’est en sécurité !

Vous connaissez tous la banque-carrefour de la Sécurité Sociale en Belgique. Il y en a d’autres telle la banque-carrefour des entreprises. Toutes détiennent des informations critiques, notamment pour notre vie privée, toutes sont accessibles via Internet. Elles ne sont pas les seules, les banques vivent dans les mêmes conditions. Tout cela est archi-sécurisé ! Comme on les croit.

Commençons par la dernière “sécurité” en date : Erratic est une “hackeuse” black hat (voir “cracker“) qui s’est payée la banque Capital One aux USA & Canada. Outre les données bancaires, fiscales et sociales de plus de 100 Mls de clients, elle a aussi mis la main sur un bijou: les N° de Sécurité Sociale de plus d’un million de personnes. C’est l’équivalent de notre N° de Registre National et c’est l’identifiant unique utilisé pour à peu près tout sur le continent nord-Américain. La banque ne s’est aperçue de rien. C’est une personne indépendante qui a remarqué les vantardises d’Erratic sur les réseaux sociaux & de développement et l’a dénoncée. En 2013, Yahoo s’est fait voler 1 milliard de comptes et en 2014, encore 500 millions. Il ne l’a avoué qu’en 2015-2016.

L’état, c’est tellement mieux pour la “sécurité”. Juste annoncé cette semaine: 11 sites gouvernementaux de Trinitad et Tobago“défacés”. Traduction en clair: un groupe de crackers a pris le contrôle de 11 sites et en ont changé la page d’accueil pour “signer” leur passage. Pour les USA, 1e cracker mondial avec la NSA mais 1e cracké, deux noms: Julian Assange/Wikileaks et Edgard Snowden. Aucun d’eux n’a piraté directement via Internet mais tous ont copié ou reçu du copiage de sites internet Top Secret (NSA !) ou personnels. Plus ancien, il y eut aussi la CIA et la Défense Nationale (DoD). En Europe et même en Israël, le sous-Vatican des Black Hats “légaux“, on a vu les données de gros paquets de citoyens se faire disperser sur le net dont un encore cette année en Europe de l’Est.

N.B.: la très officielle conférence Black Hat a lieu du 3 au 8 août 2019 à Las Vegas et des surprises vont être révélées.

En un mot comme en cent : la “sécurité” informatique est relative. Elle est toujours “cassable”, c’est juste une question de prix et de temps ou d’opportunité. Ceux qui prétendent le contraire sont des escrocs ou des incompétents : politiciens, juristes et journalistes. La centralisation des données personnelles ou confidentielles avec un accès Internet est un bon moyen pour que, tôt ou tard, elles ne soient plus ni personnelles ni confidentielles pour peu qu’elles présentent un réel intérêt politique, scandaleux ou financier voire de défi technique personnel. Les Banques-Carrefour belges ne font pas exception à cette règle. Réfléchissez bien avant d’autoriser votre médecin à y centraliser votre dossier médical. Notez que si vous utilisez abondamment les réseaux sociaux et les GAFAM ou Internet sans préservatifs, la question ne se pose pas: l’abandon de votre vie privée fait partie des conditions générales que personne ne lit, faute de temps.

Le vote électronique est encore pire. Les personnes informées ont pu en constater les limites lors du dernier vote en date aux USA où les machines, vendues par un Républicain, ont à l’évidence favorisé un Républicain. En même temps, il faut relativiser: le trucage des élections et/ou l’élimination des électeurs “votant mal” (généralement noirs et parfois hispaniques mais quasi toujours Démocrates) est un sport national au sud du Canada. Si, en Belgique, on a heureusement fait demi-tour sur cette informatisation malvenue, la France s’y met à marches forcées et pour des raisons aussi évidentes qu’européennes.