Dakarinfo

Obtenez toutes les dernières nouvelles et rapports sur la FRANCE ici Manchettes, politique et culture françaises sur la chaîne d'information

Comment Amazon a appris à Alexa à parler irlandais

Comment Amazon a appris à Alexa à parler irlandais

Comme Henry Higgins, le chanteur de la pièce « Pygmalion » de George Bernard Shaw, Marius Kotescu et Georgy Tenchev ont récemment montré comment leur élève essayait de surmonter ses difficultés d’articulation.

Les deux scientifiques des données, qui travaillent tous les deux pour Amazon en Europe, enseignaient Alexa, l’assistant numérique de l’entreprise. Leur mission : aider Alexa à maîtriser l’anglais avec un accent irlandais à l’aide de l’intelligence artificielle et d’enregistrements de locuteurs natifs.

Lors de la démonstration, Alexa a parlé d’une nuit mémorable. « La fête d’hier soir était tellement folle », a longuement dit Alexa, utilisant le mot irlandais pour s’amuser. « Nous avons eu de la glace sur le chemin du retour et nous étions contents de sortir. »

M. Tenchev secoua la tête. Alexa a laissé tomber le « r » dans le mot « Party », faisant sonner le mot plat, comme pah-tee. Il a conclu qu’il était très britannique.

Les technologues font partie d’une équipe d’Amazon qui travaille dans un domaine difficile de la science des données connu sous le nom de décodage audio. C’est un problème difficile qui a pris une nouvelle importance au milieu d’une vague de développements de l’IA, car les chercheurs pensent que le puzzle de la parole et de la technologie peut aider à rendre les appareils, les robots et les synthétiseurs vocaux alimentés par l’IA plus conversationnels, c’est-à-dire capables de plaire à beaucoup acteurs régionaux. accents.

Faire face au démêlage phonémique implique plus que simplement saisir le vocabulaire et la grammaire. La hauteur, le timbre et l’accent du locuteur donnent souvent un sens exact aux mots et un poids émotionnel. Les linguistes appellent cette fonctionnalité de langage « l’affichage », et c’est quelque chose que les machines ont eu du mal à maîtriser.

Ce n’est que ces dernières années, grâce aux progrès de l’intelligence artificielle, des puces informatiques et d’autres dispositifs, que les chercheurs ont fait des progrès dans la résolution du problème du décodage audio, transformant la parole générée par ordinateur en quelque chose de plus agréable à l’oreille.

Un tel travail pourrait éventuellement converger vers une explosion de « l’IA générative », selon les chercheurs, qui est une technologie qui permet aux chatbots de générer leurs propres réponses. Les chatbots comme ChatGPT et Bard pourraient un jour fonctionner entièrement sur les commandes vocales des utilisateurs et répondre verbalement. Dans le même temps, les assistants vocaux comme Alexa et Siri d’Apple deviendront plus conversationnels, ce qui pourrait raviver l’intérêt des consommateurs pour un secteur technologique qui semble au point mort, selon les analystes.

Faire en sorte que des assistants vocaux comme Alexa, Siri et Google Assistant parlent plusieurs langues a été un processus long et coûteux. Les entreprises technologiques ont embauché des acteurs vocaux pour enregistrer des centaines d’heures de parole, ce qui a contribué à créer des voix artificielles pour les assistants numériques. Systèmes avancés d’intelligence artificielle connus sous le nom de « modèles de synthèse vocale » – car ils convertissent le texte en parole synthétique au son naturel – Je commence juste à simplifier ce processus.

La technologie est « maintenant capable de créer une voix humaine et une voix synthétique basée sur la saisie de texte dans différentes langues, dialectes et dialectes », a déclaré Marion Laborie, stratège en chef chez Deutsche Bank Research.

Amazon a été sous pression pour rattraper des concurrents comme Microsoft et Google dans la course à l’intelligence artificielle. En avril, Andy Jassy, ​​​​PDG d’Amazon, a déclaré: pour les analystes de Wall Street Rohit Prasad, scientifique en chef d’Amazon pour Alexa, a déclaré que la société prévoyait de rendre Alexa « plus active et parlante » à l’aide d’une IA générative de pointe. il a dit à CNBC En mai, il considérait l’assistant vocal comme une « IA personnelle disponible instantanément ».

Irish Alexa a fait ses débuts commerciaux en novembre, après neuf mois de formation pour comprendre puis parler un accent irlandais.

« L’accent est différent de la langue », a déclaré M. Prasad dans une interview. Les techniques d’IA doivent apprendre à extraire l’accent d’autres parties du discours, telles que l’intonation et la fréquence, avant de pouvoir reproduire les caractéristiques des dialectes locaux, par exemple, peut-être un « a » étant plus plat et un « t » prononcé avec plus de force.

Ces systèmes doivent détecter ces motifs, a-t-il dit, « afin qu’ils puissent créer un accent entièrement nouveau ». « Ce est un difficile. »

Il est encore plus difficile d’essayer de faire en sorte que la technologie apprenne un nouvel accent à peu près par elle-même, à partir d’une forme de discours à consonance différente. C’est ce que l’équipe de M. Cotescu a tenté de construire l’Alexa irlandaise. Ils se sont fortement appuyés sur le modèle de discours existant des accents britanniques principalement anglais – avec une sélection beaucoup plus petite d’accents américains, canadiens et australiens – pour les former à parler l’anglais irlandais.

L’équipe a fait face à divers défis linguistiques de la langue anglais-irlandais. Les Irlandais ont tendance à laisser tomber le « h » dans le « th », en prononçant les lettres comme « t » ou « d », par exemple, en faisant sonner « bath » comme « bat » ou même « bad ». L’anglais irlandais est également rhotique, ce qui signifie que la lettre « r » est trop prononcée. Cela signifie que le « r » dans « fête » sera plus prononcé que ce que vous pourriez entendre de la bouche d’un Londonien. Alexa a dû apprendre et maîtriser ces caractéristiques de la parole.

L’anglais irlandais est « difficile », a déclaré M. Kotescu, qui est roumain et était le principal enquêteur de l’équipe irlandaise d’Alexa.

Les modèles vocaux qui prennent en charge les compétences verbales d’Alexa ont évolué de manière plus avancée ces dernières années. En 2020, des chercheurs d’Amazon enseignent Alexa Il parle espagnol couramment D’un modèle anglophone.

M. Cotescu et l’équipe ont vu les dialectes comme la prochaine frontière pour les capacités vocales d’Alexa. Ils ont conçu Irish Alexa pour qu’elle s’appuie davantage sur l’IA que sur les acteurs pour construire son modèle de discours. En conséquence, l’Alexa irlandaise a été formée sur un groupe relativement petit – environ 24 heures d’enregistrements par des acteurs de la voix qui ont récité 2 000 discours en anglais irlandais.

Au début, lorsque les chercheurs d’Amazon ont présenté les enregistrements irlandais à l’Alexa irlandaise encore en apprentissage, des choses étranges se sont produites.

Parfois, des lettres et des syllabes s’échappaient de la réponse. Parfois, les « S » sont collés. Un ou deux mots, parfois décisifs, étaient inexplicablement marmonnés et inintelligibles. Dans au moins un cas, la voix féminine d’Alexa a chuté de quelques octaves, semblant plus masculine. Pire encore, la voix masculine sonnait distinctement britannique, le genre de gaffe qui pourrait faire froncer les sourcils dans certains foyers irlandais.

« Ce sont de grandes boîtes noires », a déclaré Tenchev, un bulgare et scientifique en chef d’Amazon sur le projet, à propos des modèles de parole. « Vous devez avoir beaucoup d’expériences à syntoniser. »

C’est ce que les techniciens ont fait pour corriger le dérapage « partisan » d’Alexa. Ils ont démêlé la parole, mot par mot, son (le plus petit morceau audible d’un mot) par son pour identifier et affiner où Alexa se glisse. Ils ont ensuite alimenté le modèle de discours irlandais d’Alexa avec plus de données audio enregistrées pour corriger l’erreur verbale.

Résultat : « r » est renvoyé dans « party ». Mais ensuite le « p » a disparu.

Les scientifiques des données ont donc recommencé le même processus. Ils se concentrent enfin sur le son contenant le « p » manquant. Ensuite, ils ont affiné le modèle pour que le son « p » revienne et que le « r » ne disparaisse pas. Alexa a finalement appris à parler comme un Dublinois.

Depuis lors, deux linguistes irlandaises – Eileen Vaughan, qui enseigne à l’Université de Limerick, et Kate Tallon, doctorante travaillant au Phonetics and Speech Lab du Trinity College de Dublin – ont donné à Alexa des notes élevées sur l’accent irlandais. Ils ont dit que la façon dont Alexa irlandaise accentuait les « r » et adoucissait le « t » s’était arrêtée, et Amazon avait trouvé l’accent juste.

« Cela me semble réel », a déclaré Mme Tallon.

Les chercheurs d’Amazon se sont dits satisfaits des retours largement positifs. Leurs modèles de discours ont démêlé l’accent irlandais si rapidement, leur donnant l’espoir que les accents pourraient être reproduits ailleurs.

Et ils ont écrit dans la langue d’A Mémoire de janvier À propos du projet irlandais Alexa.