Décryptage technologique

Vocabulaire et diversité linguistique : comment l’IA appauvrit le langage

Les agents conversationnels tels que ChatGPT facilitent parfois notre quotidien en prenant en charge des tâches rébarbatives. Mais ces robots intelligents ont un coût. Leur bilan carbone et hydrique désastreux est désormais bien connu. Un autre aspect très préoccupant l’est moins : l’intelligence artificielle pollue les écrits et perturbe l’écosystème langagier, au risque de compliquer l’étude du langage.


Une étude publiée en 2023 révèle que l’utilisation de l’intelligence artificielle (IA) dans les publications scientifiques a augmenté significativement depuis le lancement de ChatGPT (version 3.5). Ce phénomène dépasse le cadre académique et imprègne une part substantielle des contenus numériques, notamment l’encyclopédie participative Wikipedia ou la plate-forme éditoriale états-unienne Medium.

Le problème réside d’abord dans le fait que ces textes sont parfois inexacts, car l’IA a tendance à inventer des réponses lorsqu’elles ne figurent pas dans sa base d’entraînement. Il réside aussi dans leur style impersonnel et uniformisé.

La contamination textuelle par l’IA menace les espaces numériques où la production de contenu est massive et peu régulée (réseaux sociaux, forums en ligne, plates-formes de commerce…). Les avis clients, les articles de blog, les travaux d’étudiants, les cours d’enseignants sont également des terrains privilégiés où l’IA peut discrètement infiltrer des contenus générés et finalement publiés.

La tendance est telle qu’on est en droit de parler de pollution textuelle. Les linguistes ont de bonnes raisons de s’en inquiéter. Dans un futur proche, la proportion de données en langues naturelles sur le Web pourrait diminuer au point d’être éclipsée par des textes générés par l’IA. Une telle contamination faussera les analyses linguistiques et conduira à des représentations biaisées des usages réels du langage humain. Au mieux, elle ajoutera une couche de complexité supplémentaire à la composition des échantillons linguistiques que les linguistes devront démêler.




À lire aussi :
L’IA au travail : un gain de confort qui pourrait vous coûter cher


Quel impact sur la langue ?

Cette contamination n’est pas immédiatement détectable pour l’œil peu entraîné. Avec l’habitude, cependant, on se rend compte que la langue de ChatGPT est truffée de tics de langage révélateurs de son origine algorithmique. Il abuse aussi bien d’adjectifs emphatiques, tels que « crucial », « essentiel », « important » ou « fascinant », que d’expressions vagues (« de nombreux… », « généralement… »), et répond très souvent par des listes à puces ou numérotées. Il est possible d’influer sur le style de l’agent conversationnel, mais c’est le comportement par défaut qui prévaut dans la plupart des usages.

Un article de Forbes publié en décembre 2024 met en lumière l’impact de l’IA générative sur notre vocabulaire et les risques pour la diversité linguistique. Parce qu’elle n’emploie que peu d’expressions locales et d’idiomes régionaux, l’IA favoriserait l’homogénéisation de la langue. Si vous demandez à un modèle d’IA d’écrire un texte en anglais, le vocabulaire employé sera probablement plus proche d’un anglais global standard et évitera des expressions typiques des différentes régions anglophones.

L’IA pourrait aussi simplifier considérablement le vocabulaire humain, en privilégiant certains mots au détriment d’autres, ce qui conduirait notamment à une simplification progressive de la syntaxe et de la grammaire. Comptez le nombre d’occurrences des adjectifs « nuancé » et « complexe » dans les sorties de l’agent conversationnel et comparez ce chiffre à votre propre usage pour vous en rendre compte.


Du lundi au vendredi + le dimanche, recevez gratuitement les analyses et décryptages de nos experts pour un autre regard sur l’actualité. Abonnez-vous dès aujourd’hui !


Ce qui inquiète les linguistes

La linguistique étudie le langage comme faculté qui sous-tend l’acquisition et l’usage des langues. En analysant les occurrences linguistiques dans les langues naturelles, les chercheurs tentent de comprendre le fonctionnement des langues, qu’il s’agisse de ce qui les distingue, de ce qui les unit ou de ce qui en fait des créations humaines. La linguistique de corpus se donne pour tâche de collecter d’importants corpus textuels pour modéliser l’émergence et l’évolution des phénomènes lexicaux et grammaticaux.

Les théories linguistiques s’appuient sur des productions de locuteurs natifs, c’est-à-dire de personnes qui ont acquis une langue depuis leur enfance et la maîtrisent intuitivement. Des échantillons de ces productions sont rassemblés dans des bases de données appelées corpus. L’IA menace aujourd’hui la constitution et l’exploitation de ces ressources indispensables.

Pour le français, des bases comme Frantext (qui rassemble plus de 5 000 textes littéraires) ou le French Treebank (qui contient plus de 21 500 phrases minutieusement analysées) offrent des contenus soigneusement vérifiés. Cependant, la situation est préoccupante pour les corpus collectant automatiquement des textes en ligne. Ces bases, comme frTenTen ou frWaC, qui aspirent continuellement le contenu du Web francophone, risquent d’être contaminées par des textes générés par l’IA. À terme, les écrits authentiquement humains pourraient devenir minoritaires.

Les corpus linguistiques sont traditionnellement constitués de productions spontanées où les locuteurs ignorent que leur langue sera analysée, condition sine qua non pour garantir l’authenticité des données. L’augmentation des textes générés par l’IA remet en question cette conception traditionnelle des corpus comme archives de l’usage authentique de la langue.

Alors que les frontières entre la langue produite par l’homme et celle générée par la machine deviennent de plus en plus floues, plusieurs questions se posent : quel statut donner aux textes générés par l’IA ? Comment les distinguer des productions humaines ? Quelles implications pour notre compréhension du langage et son évolution ? Comment endiguer la contamination potentielle des données destinées à l’étude linguistique ?

Une langue moyenne et désincarnée

On peut parfois avoir l’illusion de converser avec un humain, comme dans le film « Her » (2013), mais c’est une illusion. L’IA, alimentée par nos instructions (les fameux « prompts »), manipule des millions de données pour générer des suites de mots probables, sans réelle compréhension humaine. Notre IA actuelle n’a pas la richesse d’une voix humaine. Son style est reconnaissable parce que moyen. C’est le style de beaucoup de monde, donc de personne.

Bande annonce du film « Her » (2013) de Spike Jonze.

À partir d’expressions issues d’innombrables textes, l’IA calcule une langue moyenne. Le processus commence par un vaste corpus de données textuelles qui rassemble un large éventail de styles linguistiques, de sujets et de contextes. Au fur et à mesure l’IA s’entraîne et affine sa « compréhension » de la langue (par compréhension, il faut entendre la connaissance du voisinage des mots) mais en atténue ce qui rend chaque manière de parler unique. L’IA prédit les mots les plus courants et perd ainsi l’originalité de chaque voix.

Bien que ChatGPT puisse imiter des accents et des dialectes (avec un risque de caricature), et changer de style sur demande, quel est l’intérêt d’étudier une imitation sans lien fiable avec des expériences humaines authentiques ? Quel sens y a-t-il à généraliser à partir d’une langue artificielle, fruit d’une généralisation déshumanisée ?

Parce que la linguistique relève des sciences humaines et que les phénomènes grammaticaux que nous étudions sont intrinsèquement humains, notre mission de linguistes exige d’étudier des textes authentiquement humains, connectés à des expériences humaines et des contextes sociaux. Contrairement aux sciences exactes, nous valorisons autant les régularités que les irrégularités langagières. Prenons l’exemple révélateur de l’expression « après que » : normalement suivie de l’indicatif, selon les livres de grammaire, mais fréquemment employée avec le subjonctif dans l’usage courant. Ces écarts à la norme illustrent parfaitement la nature sociale et humaine du langage.

La menace de l’ouroboros

La contamination des ensembles de données linguistiques par du contenu généré par l’IA pose de grands défis méthodologiques. Le danger le plus insidieux dans ce scénario est l’émergence de ce que l’on pourrait appeler un « ouroboros linguistique » : un cycle d’auto-consommation dans lequel les grands modèles de langage apprennent à partir de textes qu’ils ont eux-mêmes produits.

Cette boucle d’autorenforcement pourrait conduire à une distorsion progressive de ce que nous considérons comme le langage naturel, puisque chaque génération de modèles d’IA apprend des artefacts et des biais de ses prédécesseurs et les amplifie.

Il pourrait en résulter un éloignement progressif des modèles de langage humain authentique, ce qui créerait une sorte de « vallée de l’étrange » linguistique où le texte généré par l’IA deviendrait simultanément plus répandu et moins représentatif d’une communication humaine authentique.

Vocabulaire et diversité linguistique : comment l’IA appauvrit le langage

Guillaume Desagulier ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Auteur : Guillaume Desagulier, Professeur de linguistique anglaise, Université Bordeaux Montaigne

Aller à la source

Artia13

Bonjour ! Je m'appelle Cédric, auteur et éditeur basé à Arles. J'écris et publie des ouvrages sur la désinformation, la sécurité numérique et les enjeux sociétaux, mais aussi des romans d'aventure qui invitent à l'évasion et à la réflexion. Mon objectif : informer, captiver et éveiller les consciences à travers mes écrits.

Artia13 has 2728 posts and counting. See all posts by Artia13