Babel numérique | Le code a changé | ARTE

la première fois que j'ai vu fonctionner une application de traduction simultanée je me suis dit qu'on vivait une expérience [Musique] mystiqueation pH le MEN magie trad en anglaise qu'on soit capable par le truchement d'un simple téléphone de parler à quelqu'un avec lequel on a aucune langue en commun ça m'a tout de suite fait penser à la langue de feu qui apparaît au-dessus des apôtres à la Pentecôte et qui raconte les évangiles leur permet de parler toutes les langues l'intelligence artificielle allit rapprocher les humains d'où qu'il soi [Musique] j'étais très loin d'imaginer toutes les questions posées par ces nouveaux programmes et ça je l'ai compris en allant discuter avec quelqu'un qui participe directement à ce bouleversement elle s'appelle vasilina nikouina c'est une chercheuse d'origine russe qui travaille pour naveur le Google coréen dans un laboratoire à Grenoble en France et parmi toutes les applications que propose Naver il y a papago un service précisément de traduction simultanée bonjour je suis tellement content de parler avec vous aujourd'hui ça dit à peu près ça c'est c'est correct c'est juste la prosodie qui est très plate mais c'est correct et vous vous l'avez vous l'utilisez temps en temps papago quand j'étais en Corée j'ai l'utilisé tous les jours j'ai survécu grâce à papago c'est impressionnant ce que les modèles de traduction peuvent faire aujourd'hui on y pensait pas il y a 10 15 ans qu'aujourd'hui on arriverait à une telle performance c'est pas parfait encore mais oui on a fait des progrès énormes pour comprendre ce qui se passe aujourd'hui comment on est arrivé à des résultats don vasselina elle-même dit qu'ils sont impressionnants il faut revenir un peu en arrière pour moi c'était avec les premiers ordinateurs que les mathématiciens et les linguistes s'était mis en tête que des machines pourrait traduire automatiquement je pense que c'est pas tellement l'informatique c'est l'homme qui a toujours voulu traduire les textes donc si on parle de toute première occurrence de la traduction automatique c'était même avant l'invention de de l'ordinateur ça date de 1936 il me semble quand chercheur russe qui s'appelle pre troyanski qui a déposer un brevet dans l'Académie de sciences sur une machine où on écrit et traduit en même temps c'était le tout premier prototype de système de la traduction automatique alle regarder de plus près la méthode de troyansski elle est un peu compliquée mais elle montre une chose très importante automatiser la traduction on y pense depuis longtemps parce que ça fait longtemps qu'on pense qu'il y a quelque chose de mécanique dans la langue et dans le passage d'une langue à l'autre et donc quand les premiers ordinateurs apparaissent après la Seconde Guerre mondiale le rêve de traduire automatiquement est réactivé très concrètement et d'ailleurs IBM mène en 1954 une expérience qui a fait date le but de l'expérience à l'époque de guerre froide c'était de traduire les articles scientifiques en russe vers l'anglais le but c'était vraiment identifier les articles les plus pertinents à envoyé au tradducteur humain ensuite mais les gens étaient tellement impressionnés par ce qu'ils ont vu qu'ils ont dit que bon d'ici 35 ans la traduction automatique ça sera résolu là on voit qu'on est toujours pas là donc on dire qu'ils était un peu optimiste à l'époque mais l'intérêt était déjà vu d'aujourd'hui la démonstration faite par IBM elle est limitée elle utilise seulement un registre de 250 mots mais pour l'époque elle est spectaculaire et elle va même poser le principe de la traduction automatique pour quelques décennies l'idée en gros c'est de faire assimiler à la machine l'évo vocabulaire des langues qu'on veut traduire et de formuler des règles linguistiques de lui expliquer par exemple que d'une langue à l'autre les mots n'ont pas la même place le verbe est à la fin en allemand il est au milieu en français en anglais on met l'adjectif avant le nom on le met plutôt après en français et cetera et cetera cette méthode on va l'appliquer très longtemps jusqu'au milieu des années 2010 environ mais les résultats ne sont pas complètement satisfaisants je te lentement avec des P sigz les murs de votre labateur et fais tout manuscrit de ton corps monte monte monte alors on décide de changer de méthode en utilisant non plus les règles mais la statistique une sorte de révolution que vasilina résume par une formule qui fait un peu réfléchir à partir d'un moment où on a des textes on a des données on a déjà investi pas mal de travail dans la création de ces données pourquoi pas laisser l'ordinateur apprendre par luimême comment traduire laisser l'ordinateur apprendre par lui-même comment traduire en effet comme le dit vassilina on commence à avoir plein de données disponibles grâce au web par exemple le Canada met en ligne tous ces textes de loi en anglais et en français ben ça ça fourni aux machines énormément de textes parfaitement traduits ensuite il y a une révolution technologique l'intelligence artificielle et ce qu'on appelle les réseaux de neurones comment ça marche pour le dire grossièrement on donne à la machine un énorme corpus de texte traduit d'une langue à l'autre par exemple de l'anglais au français ou de l'allemand à l'anglais et la machine va se construire par elle-même une sorte de représentation spatiale de chaque langue elle constate que en français rouge et bleu sont assez proches que Colin et montagne sont assez proches et puis elle s'aperçoit aussi que en anglais Red et Blue sont au même endroit que rouge et bleu en français que Hill et Mountain sont au même endroit que colline et monag de cette manière la machine n'a plus besoin qu'on lui explique quoi que ce soit ni en terme de vocabulaire ni en terme de construction syntaxique elle le déduit d'elle-même grâce aux données et au calculs statistiques mais on a encore rien vu parce que depuis 2 3 ans c'est tout autre chose c'est l'apparition de modèle qu'on appelle multilingue à un moment les chercheurs ont dit bon pourquoi juste se limiter à dé donné l'anglais français ou l'anglais l'allemand pourquoi pas tous les mettre dans le même modèle et qu'au final ce que ça permis c'est bénéficier les paires de langues pour lesquelles on a très peu de donné de de connaissance apporté par d'autres paires de langues en gros donc si on sait traduire français anglais si on sait traduire l'anglais allemand à la fin on sait traduire français allemand aussi même si on avait très peu de données ou parfois pas de pas de données du tout alors là il faut prendre la mesure de ce que nous explique vassilina la machine devient capable de traduire des langues n'ont pas beaucoup de traduction en commun grâce aux autres langues comment c'est possible quand on apprend le modèle avec beaucoup de langues en même temps cette représentation à partir duquel on génère la traduction elle est en quelque sorte indépendante de la langue je dis pas qu'elle est à 100 % indépendant de la langue mais il y a certain niveau d'abstraction qui apparaît dans cette représentation on a on a montré que quand on prend cette représentation là on prend une phrase en espagnol une phrase en italien et ils vont être assez proche dans l'espace les représentations de ces phrases quand il s'agit de de de la même chose donc il y a certaines niveau de oling qui qui qui émerge dans ce type de modèle c'est dingue enfin et en même temps ça rappelle quelque chose que disent souvent les gens qui connaissent beaucoup de langu ils disent que plus on connaît de langue plus c'est rapide d'en apprendre une nouvelle c'est comme si allait se réaliser le programme si souvent raconté par la science-fiction d'un traducteur universel capable traduire même les extraterrestres est-ce que en caricaturant un peu on pourrait dire que la machine a réussi à faire un truc qu'onait jamais réussi à faire les humains c'est-à-dire trouver la structure universelle de la langue ça c'est une vieille idée philosophique la langue universelle une idée qui a été beaucoup travaillée par des philosophes comme liit ou DESC c'est l'idée qu'il y aurait une structure commune à la pensée de tous les humains et que cette structure elle serait mathématique donc quand vassilina parle de représentation interlangue grâce à du calcul bah moi je pense à la langue universelle est-ce que c'est vraiment structure universelle de la langue je ne sais pas on n pas encore la réponse à ça et puis je crois pas que c'est 100 % structure indépendante de la langue jusqu'à certains degrés oui c'est assez impressionnant ce qu'il émerge donc avec les modèles de traduction multilingue la machine réussi à traduire assez correctement en plusieurs dizaines de langues sans qu'on sache vraiment comment elle fait je parlais d'expérience mystique tout à l'heure ben est-ce qu'on en est si loin la question c'est est-ce que ces modèles arrive vraiment à tout traduire parce que je veux bien que ça fonctionne à peu près correctement avec des phrases simples mais si je joue par exemple de la polycémie du mot avocat qui en français peut désigner aussi bien un homme de loi ou un fruit un avocat mange un avocat ADV advata mais quand c'est quelque chose inattendu c'est pas des exemples qu'on voit beaucoup sur le web de fois bah il il invente des choses le modèle est capable de transmettre le sens correctement dans la plupart de cas mais il est pas capable de faire les différention dans dans les petits registres dans les par exemple par exemple il y avait les chercheurs qui ont fait une expérience les chercheurs qui font l'analyse de personnalité à partir de texte donc si on prend le texte en espagnol et on essaie de prédire certaines très le gen de cette personne làâche de la personne qui écrit le texte sur dans le texte d'origine il ils y arrivent relativement bien mais il une fois qu'il le traduis vers l'anglais il perd beaucoup beaucoup d'information sur sur sur le texte d'origine parce que le modèle il va reproduire l'anglais qu' a vu le plus dans ses données qui va pas nécessairement préserver les traits orig du texte original là en écoutant vassilina je comprends un truc je comprends pourquoi chat GPT parle comme il parle parce que bon quiconque a essayé de discuter avec ce robot conversationnel a pu le constater il parle très bien je suis heureux que vous trouviez mon niveau de langue satisfaisant il fait pas fa d'orthographe la syntaxe est parfaite mais il produit une sorte de langue moyenne une langue sans personnalité je m'excuse si ma langue n'est pas à la hauteur de vos attentes au fond il fait une moyenne de toutes les manières d'écrire et de parler qu'il a un gurgité dans Internet et donc est-ce qu'il n'y a pas un risque que en confiant toute une part de la traduction mais aussi de l'expression à ces modèles là on parle pas moyennement on ne traduisent pas moyennement on n'écrivent pas moyennement il y a un risque ouais mais c'est comme tous les progrès technologiques à partir d'un moment où on commence à utiliser l'outil qui nous aide on perd la capacité de faire le travail nous-même c'est comme avec la calculatrice on fait plus le calcul mental avec le systèmes de traduction automatique on est plus capable de traduire donc il y a bien un risque de parler une langue moyenne mais doubler d'un autre risque la domination linguistique de l'anglais parce qu'on sait l'anglais c'est la lingua franca de l'Internet donc on y trouve beaucoup plus de traduction vers l'anglais ou à partir de l'anglais que de depuis ou vers n'importe quelle autre langue et même si les modèles multilingues sont nourris avec plein d'autres langues est-ce qu'il n'avantage pas mécaniquement l'anglais tout dépend de l'objectif qu'on se donne quand on développe les modèles par exemple quand on développe les modèles multilingues on sait que si on change les proportions des données qu'on met dedans on peut améliorer la qualité des traduction sur d'autres langues que que l'anglais on on a fait le travail l'année dernière on a essayé de faire exactement ça on s'est dit on veut développer un modèle qui qui est meilleur sur les langues peu de té les langues qui sont déjà riches en ressources il y a suffisamment de modèles qui existent pour ces langul il nous intéressent pas on va prendre un gros modèle multilingue qui existe et on va le compresser mais avec l'entérêt spécial pour les langues peu deté donc à la fin quand on évalue ce modèle là on voit que sur les langues qui ont beaucoup de ressources on on perd en performance mais on sait que cette performance elle est facile à récupérer quand on rajoute des données si quelqu'un est intéressé à récupérer cette performance c'est facile par contre sur les langues pe deté on a des performances bien meilleures que d'autres modèles ça devient donc une question presque politique en fait un choix à un moment on peut décider de rééquilibrer les forces de plus laisser s'appliquer la loi du plus fort en l'occurrence la loi de l'anglais Naver a d'ailleurs été créé pour cette raison au départ in le créateur du moteur de recherche avait peur que les Coréens n'ai plus accès qu'à un web anglophone celui de Google et vassilina a ajouté quelque chose auquel je n'avais jamais réfléchi je pense que pire que l'anglais de plus en plus il y aura des données créé par ces modèles donc je suis sûr que il y a déjà plein de données qui étaient créées par les systèmes de traduction automatique bientôt il y aura plein de données qui sont créées par tipt et donc ça c'est encore un autre B qui va être réentreduit dans les données avec lesquelles on travail et ça on sait pas encore comment comment faire avec ça c'est quoi le risque de ça c'est quoi le risque que les modèles soient entraînés avec des données qu'il a créé lui-même euh on sait que par exemple les modèles d'apprentissage automatique ils ont tendance à amplifier certains billets qui sont déjà présents de la langue donc les billets du genre par exemple il peut il peut l'amplifier donc quand il continue de s'entraîner sur ses propres données il va l'amplifier de plus en plus par exemple ça va uniformiser encore plus le langage si on sait déjà que quand on traduit vers l'anglais c'est l'Anglais moyen on va perdre encore plus la personnalisation de la langue quand on entraîne sur les données générées par ces modèles c'est habissable le risque de ces modèles ultra performants c'est qu'ils finissent par être nourris par eux-mêm que ce soit moins la langue humaine qui les nourrissent que celle produite par tadpt et les autres ras génératifs de texte qu'ils traduisent à partir de traduction qu'ils ont fait eux-mêmes c'est quand même stupéfiant qu'à un moment où on est peut-être en train de relier les langues humaines les unes aux autres grâce à la technologie il fa faire attention à ne pas trop se faire contaminer par la langue de la machine une langue produite par des processus et des calculs qui sont tellement nombreux tellement complexe qu'il deviennent illisible pour nous qu'on peut pas les traduire en langage humain elle est peut-être là la nouvelle mystique

Share your thoughts

Related Transcripts

Les datas dans la mêlée | Le code a changé | ARTE thumbnail
Les datas dans la mêlée | Le code a changé | ARTE

Category: News & Politics

J'aime le sport enfin j'avoue surtout le regarder à la télévision et depuis quelques temps je constate une chose il y a de plus en plus de statistiques dans le football dans le tennis le rugby on compte les kilomètres parcourus le nombre d'occasions où le joueur aurait éventuellement pu marquer et évidemment... Read more

Tous notés | Le code a changé | ARTE thumbnail
Tous notés | Le code a changé | ARTE

Category: Howto & Style

En 2017 il y a une histoire qui m'a bien amusé enfin en tout cas au début deux jeunes restaurateurs ont ouvert une nouvelle table à paris le capiello c'était un restaurant de quartier qui proposait un très bon rapport qualité-prix tellement bon que par le jeu combiné de la notation et des algorithmes... Read more

The iPhone 16 Is Here! CNET Editors React to Apple's 'Glowtime' Event thumbnail
The iPhone 16 Is Here! CNET Editors React to Apple's 'Glowtime' Event

Category: Science & Technology

Intro [music] welcome back to cet live coverage of the apple iphone 16 event the glow time event or now i guess we're in the afterglow um i am here with my co-host scott stein and abar alii and we have a lot to dive into so we're just going to go around the room and you know what let's sh our feeling... Read more

#Openai o1 Preview y o1 Mini son los nuevos modelos de #InteligenciaArtificial en #CHATGPT thumbnail
#Openai o1 Preview y o1 Mini son los nuevos modelos de #InteligenciaArtificial en #CHATGPT

Category: Education

Open eye lanzó un nuevo modelo de inteligencia artificial dice presentamos open o1 hemos desarrollado una nueva serie de modelos de ia diseñados para pasar más tiempo pensando antes que respondan es decir es diferente en el sentido que lo que se venía viendo en todos los modelos de lenguaje artificial... Read more

Nanoparticules et complots | Le code a changé | ARTE thumbnail
Nanoparticules et complots | Le code a changé | ARTE

Category: Science & Technology

Ça fait quelques temps que je m'intéresse aux nanoparticulesf pas à leur aspect strictement technique pas tant que ça mais en revanche pourquoi je les vois apparaître de plus en plus dans des discours qui alimentent les complots alors ça ça m'intrigue je crois que ça a commencé pendant le covid quand... Read more

Le pylône qui valait 5 millions d'euros I Le code a changé I ARTE thumbnail
Le pylône qui valait 5 millions d'euros I Le code a changé I ARTE

Category: Entertainment

Vous voyez ce pyone là ce pyone qui a l'air de rien et ben il vaut une fortune non seulement il vaut une fortune mais il raconte toute une histoire et aussi bizarre que ça puisse paraître plus encore peut-être que le tgv et les records deen bolt cette histoire c'est celle de notre obsession pour la... Read more

Nvidia se suma a la financiación de OpenAI junto a Microsoft y Apple thumbnail
Nvidia se suma a la financiación de OpenAI junto a Microsoft y Apple

Category: News & Politics

Envidia se enfoca en ganancias pero parece que podría invertir en open ai y de hacerlo se estaría sumando a apple y también a microsoft microsoft es el mayor patrocinador de open ai el cual invierte unos 1300 millones en la empresa envidia invertirá 100 millones así que está bastante lejos de eso la... Read more

Telegram'ın kurucusu Pavel Durov ne ile suçlanıyor thumbnail
Telegram'ın kurucusu Pavel Durov ne ile suçlanıyor

Category: Science & Technology

Telegram'ın ceo'su ve kurucusu pavel durov hala asa serbest ama soruşturma devam ediyor fakat adli bir soruşturma sürecek ve bununla beraber kendisi 5 milyon euro kefalet ödemek zorunda adli gözetim altında haftada iki gün fransız polis karakoluna gitmesi gerekiyor imza vermesi gerekiyor ve fransız... Read more

Strawberry Q* SOON, Apple Intelligence Updates, $2,000/mo ChatGPT, Replit Agents (AI News) thumbnail
Strawberry Q* SOON, Apple Intelligence Updates, $2,000/mo ChatGPT, Replit Agents (AI News)

Category: Science & Technology

Openai strawberry model imminent open ai strawberry model is imminent that's our first story for today according to reuters we have open ai plans to release strawberry for chachi pt in 2 weeks and jimmy apples the only reliable leaker has mentioned it as well jimmy apples last week all quiet on the... Read more

Apple’s Biggest News Since iPhone thumbnail
Apple’s Biggest News Since iPhone

Category: Science & Technology

Ios 18 is finally here and it looks like the leaks and rumors were true because this is one of the biggest iphone software updates we've seen in a long long time anyone remember ios 7 it seems like apple went all out this year for the new ios we've got new features we've got new customization options... Read more

Unleashing AI Power: Cerebras' Giant Chip Meets Meta's LLaMA 3.1 Revolution! #shorts #viralreels thumbnail
Unleashing AI Power: Cerebras' Giant Chip Meets Meta's LLaMA 3.1 Revolution! #shorts #viralreels

Category: Science & Technology

Cerebra systems is revolutionizing the world of artificial intelligence with its massive wafer scale computer chip roughly the size of a dinner plate this innovative technology is about to take a significant leap forward as it prepares to integrate me's open source llama 3.1 onto the chip by putting... Read more

iOS 18: What's the new features? thumbnail
iOS 18: What's the new features?

Category: Science & Technology

Approximately in two weeks on apple presentation it's going to be presented at a release of ios 18 what's the new features is it worth to switch on firstly we have the most controversi of ad is the themes and color changing of your home screen it's headed for its limits and true realization second we... Read more