Traduction automatiqueMot-à-mot La traduction automatique désigne la traduction brute d'un texte, entièrement réalisée par un ou plusieurs programmes informatiques. Dans le cas de la traduction d'une conversation audio, en direct ou en différé, on parle de 'transcription automatique'. Un traducteur humain n’intervient pas pour corriger les erreurs du texte durant la traduction, mais seulement avant et/ou après. On la distingue de la traduction assistée par ordinateur, où la traduction est en partie manuelle, éventuellement de façon interactive avec la machine. Malgré ses faiblesses, elle peut rendre des services dans des domaines tels que la veille internationale (y compris la veille technologique)[1], où elle permet de prendre connaissance de façon superficielle, mais rapide, de grandes quantités de textes. Depuis le début du siècle, la traduction automatique connaît un essor considérable sur le Web, avec plusieurs systèmes en ligne pouvant traduire automatiquement, et en quelques secondes, des pages Web ou des textes de plus en plus longs. C'est une aide très appréciée du grand public, car elle permet de déchiffrer — de façon grossière — le thème d'une page Web dans une langue totalement inconnue et les principaux faits ou éléments d'information qu'elle contient. Pour simplifier la navigation, plusieurs moteurs de recherche comme Google, Altavista ou Yahoo! proposent de l'utiliser systématiquement. Histoire et évolutionsFin , la presse annonce de notables améliorations[2]. Le Centre international pour les technologies avancées des communications, dirigé conjointement par l’université Carnegie-Mellon de Pittsburgh et l'université de Karlsruhe en Allemagne, dévoile alors un système informatique de traduction instantanée. Un étudiant chinois, affublé de onze électrodes sur le visage et sur la gorge, prononce dans sa langue un discours qui est simultanément traduit en anglais et en espagnol. Les chercheurs indiquent en conclusion que « Les résultats ne sont pas parfaits » et qu'« il peut y avoir des difficultés quelquefois ». En fait, aucun article n'indique que les journalistes allemands et américains ont pu s'entretenir avec l'étudiant. Les journalistes omettent d’ailleurs généralement de préciser que, quand le docteur Waibel annonce qu’il va prendre des questions de journalistes allemands et américains, l’ordinateur entend quelque chose comme : « Ainsi nous glycogène il alternant des questions entre l’Allemagne et l’Amérique. »[3] Ce type de traduction instantanée manque encore d'améliorations logicielles concernant la reconnaissance vocale, notamment brouillée par le bruit ambiant et la mauvaise prononciation. En 2018, un outil informatique basé sur l'intelligence artificielle réussit à traduire en douze heures un livre de 800 pages de texte, de graphiques et de formules mathématiques, écrit avec LaTeX[4]. Cet outil développé par Quantmetry, une jeune entreprise de conseil en intelligence artificielle pour les entreprises, associée à quatre chercheurs français spécialistes de l'apprentissage profond et issus de l'ENSAI, de l'INRIA et de l'Université de Caen, est basé sur le service de traduction automatique DeepL. La traduction automatique basée sur l'apprentissage profond est appelée traduction automatique neuronale, ou NMT en anglais ("Neural Machine Translation")[5]. En 2019, l'un des services leader du domaine est DeepL de Linguee, mais ce service pourrait être devancé par des progrès à venir de Google[6]. En 2010, Pangeanic devient la première entreprise au monde à appliquer le traducteur statistique Moses dans un environnement commercial en développant une plateforme d'autoapprentissage, de nettoyage de corpus et de recyclage, en collaboration avec l'Instituto Técnico de Informática de Valencia (ITI) et le groupe de recherche Reconnaissance des formes et technologie du langage humain de la Politècnica de València. Membre fondateur de TAUS, Pangeanic remporte le plus grand contrat d'infrastructure de traduction automatique pour la Commission européenne avec son projet IADAATPA en 2017. Depuis 2019, Pangeanic dirige NTEU.eu, un projet CEF de la Commission européenne. NTEU est la plus grande ferme de moteurs de traduction automatique fondée sur les réseaux neuronaux pour les administrations publiques européennes. Depuis 2020, Google a automatisé la traduction de discours ou de conversation orale accessible depuis des téléphones portables[7]. Traduction automatique et transcription automatiqueLa traduction automatique se distingue de la transcription automatique par le fait que la traduction automatique est une traduction — de l'écrit vers l'écrit — alors que la transcription s'applique sur un discours et peut être proposée de manière écrite[8]. Par exemple, le centre de traduction des organes de l’UE propose à ses utilisateurs les deux types de services pour leur permettre d'obtenir rapidement et à moindres frais un texte utilisable sans être précisément juste[8]. Le premier distributeur de film indien — originellement par VHS —, avec plusieurs centaines de millions d'utilisateurs enregistrés, connu pour ses films blockbusters[9] a fait sous-titrer — transcrire automatiquement — l'intégralité des 12 000 produits de son catalogue par le service de Google pour les rendre disponibles en langue arabe. Cette transcription automatique réduit les coûts de 25 % et les délais de deux jours. Elle conduit aussi à des erreurs qui nécessitent des corrections quand elles sont détectées ou identifiées[10]. Le processus de traductionLe processus de traduction (au sens humain) peut être découpé en trois phases :
En termes informatiques, la compréhension devient l'analyse, la déverbalisation devient le transfert et la réexpression devient la génération. Ces étapes du processus sont modélisées dans le triangle de Vauquois[12]. Ce modèle est utile, car pour passer de la source à la cible, il existe plusieurs chemins possibles qui constituent les différentes approches envisagées à ce jour. Plus le degré de conceptualisation est élevé, plus court est le chemin du transfert. Il existe quatre possibilités principales :
Actuellement, les moteurs de traduction sont principalement par règles ou statistiques. Une voie dite hybride émerge[15]. Systran, Google Translate, Reverso et Microsoft Traduction utilisent des approches hybrides. PrérequisLes prérequis dépendent de l'approche envisagée : traduction à base de règles (mot-à-mot, transfert, pivot), traduction par l'exemple, traduction statistique. La traduction automatique à base de règles nécessite :
La traduction par l'exemple et la traduction statistique nécessitent :
On peut, en plus, avoir besoin d'outils d'analyse linguistique tels que :
ApprochesPlusieurs approches peuvent être considérées pour la traduction automatique[16].
NotoriétéL'usage de la traduction automatique est devenu courant pour certains échanges et dans certains milieux professionnels[17]. Par exemple, en dépit des risques et en l'absence de professionnels compétents, les hôpitaux et cliniques des États-Unis pourraient recourir à la traduction automatique[18]. Quelque 90 % des textes traduits par la Direction générale de la Traduction (DG TRAD) sont pré-traduits par traduction automatique[19]. Qualité de la traductionLa traduction automatique, brute, n'est pas parfaite, et quelques erreurs peuvent se trouver dans le résultat, comme l'utilisation d'un mot à la place d'un autre. Elle nécessite donc d'être retravaillée pour éliminer les erreurs. La révision humaine de la traduction automatique est appelée la post-édition. Lorsque le quantitatif et le coût priment sur le qualitatif, la traduction automatique est privilégiée et le traducteur professionnel se trouve parfois contraint de justifier sa plus-value[20]. La qualité des traductions est cependant augmentée par la post-édition. Une étude sur un système de traduction automatisée utilisée dans une agence de presse canadienne a révélé que la post-édition par des rédacteurs humains a corrigé de nombreuses erreurs commises par la machine, mais pas toutes[21]. Exemple d'erreur où le mot mandat est traduit littéralement, sans tenir compte du contexte des mesures sanitaires liées à la pandémie de COVID-19:
Mesure de la qualitéDes métriques de mesure de la qualité sont utilisées pour pouvoir automatiser la mesure de la qualité de la traduction automatique. Parmi les métriques connues se trouvent BLEU, ROUGE, NIST et METEOR[20]. Évaluation humaineLa traduction automatique peut également faire l'objet d'une classification humaine :
La qualité de la traduction peut être exprimée par son utilité pour la post-édition, en termes de gain de temps par rapport à une traduction sans pré-traduction automatique[22]. Certaines études montrent que le temps de production d'un texte traduit avec recours à une traduction automatique post-éditée est trois ou quatre fois moindre que sans recours à la TA[22]. D'autres études nuancent cela par la l'impact de la proximité terminologique entre la langue source et la langue cible, avec les langues ayant un lexique plus distant de la source nécessitant plus te temps de post-édition[23]. RisquesCe type de service peut présenter des risques dans le domaine de la vie privée, ainsi que des risques d'induire des préjugés racistes ou sexistes[24]. Un mauvais usage peut conduire à d'autres risques selon l'usage, ainsi selon le Daily Telegraph, un employé polonais a été sérieusement blessé après avoir suivi les consignes de sécurité dont Google avait donné une traduction incorrecte ou erronée à la demande de l'employeur — Parker's Nurseries —[25]. Savoir-faireLe savoir utiliser avec le recul nécessaire la traduction automatique s'appelle “Machine Translation Literacy”. ApplicationsLes appareils de traduction actuels sont utiles pour des situations limitées, par exemple, pour réserver une chambre dans un hôtel. « Si je vais à Pékin, je peux descendre au Hilton sans aucun problème », disait Stephan Vogel, un chercheur de Carnegie Mellon. Services en ligneLes services en ligne sont d'apparence simple à utiliser : ils consistent à ouvrir le service, copier automatiquement le texte à traduire, choisir la langue d'origine et la langue de destination puis demander la traduction[24]. Traducteurs en ligne gratuits : Ils permettent de traduire des mots ou des textes de taille limitée. Il s'agit, par exemple, de : Logiciels libres :
Environnements de développement : Langues anciennesLes progrès des réseaux neuronaux convolutifs au cours des dernières années et de la traduction automatique à faible ressource (lorsque seule une quantité très limitée de données et d'exemples sont disponibles pour la formation) ont permis la traduction automatique pour les langues anciennes, telles que l'akkadien et ses dialectes babylonien et assyrien[26]. Notes et références
Voir aussiArticles connexesBibliographie
Liens externes
|