Cyberéthique et libertés numériques

Notre-Dame du Cloud

Langues, Notre-Dame de Paris, culture : Microsoft poursuit sa séduction en Europe

Microsoft poursuit son opération de séduction en Europe avec l’annonce de deux initiatives. D’abord, un travail spécifique sur les langues européennes pour augmenter leur représentativité dans les modèles d’IA générative. Ensuite, une numérisation complète de la cathédrale Notre-Dame de Paris, dans le cadre de son programme Culture AI.

Face aux tensions géopolitiques, aux étincelles provoquées par les DMA et DSA ou encore aux questions de souveraineté, Microsoft applique une méthode de « bon élève pragmatique ». La société américaine tâche de ne pas faire de vagues et d’appliquer le cadre juridique sans trop contester. Elle a par exemple rationalisé son offre cloud pour proposer le même type d’infrastructure que pour Bleu (la coentreprise Capgemini-Orange), a priori non soumis à l’extraterritorialité des lois américaines.

Dans cette optique, et toujours dans le cadre des engagements envers l’Europe annoncé le 16 juin, Microsoft présente plusieurs initiatives, dont une visant à « combler le fossé linguistique » existant dans les grands modèles de langage actuellement, selon l’éditeur.

Cap sur les LLM multilingues

D’après Microsoft, la domination actuelle de l’anglais dans les contenus en ligne peut créer un problème de représentativité linguistique. « Une grande partie de ce contenu reflète une perspective américaine », indique Microsoft. Le problème serait particulièrement visible en Europe, le Vieux continent comptant plus de 200 langues. « L’IA qui ne comprend pas les langues, l’histoire et les valeurs de l’Europe ne peut pas servir pleinement ses citoyens, ses entreprises ou son avenir », affirme l’entreprise.

« L’Union européenne compte 24 langues officielles, auxquelles s’ajoutent des dizaines d’autres reconnues au niveau national ou régional. Pourtant, nombre de ces langues – même celles qui font partie des 24 langues officielles, comme le danois, le finnois, le suédois et le grec – représentent moins de 0,6 % du contenu du web. D’autres, comme le maltais, l’irlandais, l’estonien, le letton et le slovène, sont à peine visibles en ligne. Alors que seulement 5 % de la population mondiale parlent l’anglais comme première langue, les textes en anglais représentent la moitié du contenu des sites web et dominent les données utilisées pour former les modèles d’intelligence artificielle »

Pour illustrer le problème, Microsoft dégaine les résultats sur le modèle open source Llama 3.1 de Meta. Particulièrement à l’aise avec l’anglais, les performances du modèle deviennent moyennes en grec, voire franchement mauvaises en letton.

blank
Source : Microsoft

Données librement accessibles

La solution proposée ? Utiliser ses centres de recherche à Strasbourg et ses employés pour constituer des réserves linguistiques associées à chaque langue parlée en Europe, afin de créer un socle d’entrainement pour les modèles. Microsoft déploie ici tout son charme, faisant miroiter l’explosion des possibilités face à l’élimination des barrières linguistiques, des IA plus en phase avec les spécificités de chaque pays, ou encore la préservation de langues classées comme en danger par l’UNESCO, comme le breton, l’occitan et le romanche.

Microsoft indique qu’elle va collaborer avec des partenaires dans toute l’Europe (entreprises, universités, dont celle de Strasbourg) et mettre à disposition les ressources de son Open Innovation Center (MOIC) et de son AI for Good Lab à Strasbourg. Viendra s’y ajouter une équipe de « 70 ingénieurs, scientifiques des données et professionnels de la politique de Microsoft ».

Tout ce petit monde commencera par exploiter le stock de données multilingues de Microsoft, pour le rendre accessible librement en Europe, y compris aux développeurs de logiciels libres, promet l’entreprise. Ces données seront notamment disponibles sur Hugging Face. Un partenariat avec Common Crawl permettra de financer des travaux chez ce dernier, dont la participation de locuteurs natifs pour « pour annoter et ensemencer des données en langues européennes dans l’ensemble de données Common Crawl accessible au public ».

Une opération qui devrait certes aider à augmenter la représentativité des langues européennes, mais qui contribuera également à fournir des données fraiches à Microsoft pour l’entrainement de ses modèles. L’éditeur promet cependant que toutes ces données seront accessibles publiquement. Elles pourront servir, en théorie, à l’entrainement d’autres modèles de la concurrence.

Un jumeau numérique de Notre-Dame

Microsoft, qui se pose en champion de la culture en Europe, a également annoncé une extension de son programme Culture AI. Dans le cadre de ce dernier, un jumeau numérique de la cathédrale Notre-Dame de Paris va être réalisé en « haute fidélité ».

L’entreprise ne se lance pas seule dans ce projet. Elle s’est associée au ministère français de la Culture et à la société Iconem, spécialisée dans ce domaine. À noter que le programme Culture AI de Microsoft ne s’occupe jamais directement de la création de ces jumeaux numériques. Il finance des opérations conjointes pour le patrimoine historique. Ces projets ont débouché notamment sur des jumeaux de l’ancienne Olympie en Grèce, du mont Saint-Michel, de la basilique Saint-Pierre de Rome ou encore de certains lieux emblématiques du débarquement des alliés en Normandie.

Microsoft promet que ce jumeau « préservera en permanence sous forme numérique chaque détail de Notre-Dame, garantissant ainsi que sa structure, son histoire et son symbolisme seront protégés et accessibles pour les générations à venir ». La copie sera donnée à l’État français et exploitée notamment dans le futur musée Notre-Dame de Paris.

Tous azimuts sur la culture

En parallèle, l’entreprise américaine annonce plusieurs autres partenariats. Avec la Bibliothèque nationale de France et Iconem, Microsoft va par exemple numériser 1 500 maquettes cinématographiques provenant de spectacles à l’Opéra National de Paris entre 1800 et 1914. Les données alimenteront des programmes éducatifs et seront mises à disposition de la plateforme Gallica de la BNF. Avec le Musée des Arts Décoratifs, Microsoft va également des descriptions numériques détaillées d’environ 1,5 million d’objets du Moyen-Âge.

Microsoft affirme présenter ces « nouvelles mesures avec humilité et respect ». L’entreprise dit reconnaitre « que la préservation de la diversité linguistique et culturelle de l’Europe est une tâche qui incombe aux Européens et qui doit être menée par les Européens ». Elle se place ainsi dans un rôle de prestataire d’arrière-plan, avec à la clé, peut-être, une hausse de sa cote de popularité.

Auteur : Vincent Hermann

Aller à la source

Artia13

Bonjour ! Je m'appelle Cédric, auteur et éditeur basé à Arles. J'écris et publie des ouvrages sur la désinformation, la sécurité numérique et les enjeux sociétaux, mais aussi des romans d'aventure qui invitent à l'évasion et à la réflexion. Mon objectif : informer, captiver et éveiller les consciences à travers mes écrits.