Ingénierie//10 min de lecture

Qualité de la Traduction Automatique : Problèmes Courants, Méthodes d'Évaluation et Comment Améliorer les Résultats

Eray Gündoğmuş
Partager

Qualité de la Traduction Automatique : Problèmes Courants, Méthodes d'Évaluation et Comment Améliorer les Résultats

Points Clés

  • La qualité de la traduction automatique varie considérablement selon la paire de langues, le domaine et le type de contenu
  • Les erreurs courantes de MT comprennent les hallucinations (contenu fabriqué), les traductions littérales, l'incohérence terminologique et les erreurs de genre/formalité
  • Les métriques automatisées (BLEU, COMET, chrF) fournissent des estimations approximatives de qualité, mais l'évaluation humaine reste la référence absolue
  • La post-édition de la traduction automatique (MTPE) est le flux de travail standard pour le contenu de production — combinant la vitesse du MT avec la précision humaine
  • Améliorer la qualité du MT nécessite une combinaison de meilleur texte source, de glossaires personnalisés, d'adaptation de domaine et de flux de travail de post-édition structurés

Erreurs Courantes en Traduction Automatique

Comprendre les types d'erreurs que produisent les systèmes de MT aide les équipes à construire des flux de travail de révision efficaces.

Hallucinations

Les modèles de MT peuvent générer du contenu qui n'existe pas dans le texte source. C'est particulièrement dangereux car la sortie peut paraître fluide et naturelle pour les non-locuteurs tout en étant factuellement incorrecte.

Exemple : Source : « Cliquer sur Enregistrer » → Sortie MT : « Cliquez sur Enregistrer pour conserver vos modifications et quitter l'application » (signification supplémentaire fabriquée)

Les hallucinations sont plus courantes dans :

  • Les chaînes très courtes avec un contexte limité
  • Les paires de langues à faibles ressources
  • Le contenu ambigu dans la langue source

Traduction Littérale

Traduire mot à mot sans s'adapter aux schémas d'expression naturels de la langue cible.

Exemple : L'anglais « It's raining cats and dogs » → Traduction littérale en français plutôt que l'expression idiomatique naturelle « Il pleut des cordes ».

Dans les logiciels, les traductions littérales produisent souvent un texte d'interface techniquement correct mais peu naturel qui donne une impression de mauvaise localisation.

Incohérence Terminologique

Les moteurs de MT ne maintiennent pas la cohérence terminologique entre les chaînes sauf si des glossaires sont explicitement configurés. Le même terme source peut être traduit différemment dans différentes chaînes.

Exemple : « Dashboard » traduit par « Tableau de bord » dans une chaîne et « Panneau de contrôle » dans une autre au sein du même projet.

Erreurs de Genre et de Formalité

Les systèmes de MT adoptent souvent par défaut un genre ou un niveau de formalité et l'appliquent de manière incohérente.

Exemple : Traduction allemande mélangeant le vouvoiement formel « Sie » avec le tutoiement informel « du » dans différentes chaînes de la même application.

Mauvaise Interprétation du Contexte

Les chaînes courtes sans contexte sont particulièrement sujettes aux erreurs. Le mot anglais « Open » peut signifier :

  • Verbe : « Open the file » (Allemand : « Öffnen »)
  • Adjectif : « The file is open » (Allemand : « Geöffnet »)
  • Nom : « Open (statut) » (Allemand : « Offen »)

Les systèmes de MT doivent deviner sans contexte et se trompent fréquemment.

Erreurs de Nombres et de Formatage

Le MT peut modifier incorrectement les nombres, les dates, les devises et d'autres contenus formatés :

  • Modification inappropriée des symboles monétaires
  • Reformatage incorrect des dates
  • Modification des valeurs techniques (numéros de version, mesures)

Méthodes d'Évaluation

Métriques Automatisées

MétriqueCe qu'elle MesurePoints FortsLimites
BLEUChevauchement de n-grammes avec la traduction de référenceRapide, reproductible, largement utiliséPénalise les traductions alternatives valides
COMETEstimation de qualité apprise via des modèles neuronauxMeilleure corrélation avec le jugement humain que BLEUNécessite le téléchargement du modèle, dépendant de la langue
chrFF-score au niveau des caractèresFonctionne bien pour les langues morphologiquement richesMoins interprétable que BLEU
TERDistance d'édition par rapport à la traduction de référenceIntuitif (plus bas = moins de modifications nécessaires)Même limitation de dépendance à la référence que BLEU

Important : Les métriques automatisées nécessitent des traductions de référence (étalons-or traduits par des humains). Elles mesurent la similarité avec une référence, pas la qualité absolue. Une traduction valide qui diffère stylistiquement de la référence obtiendra un score plus bas même si elle est parfaitement correcte.

Évaluation Humaine

L'évaluation humaine reste la méthode la plus fiable. Cadres courants :

MQM (Multidimensional Quality Metrics) : Un cadre structuré qui catégorise les erreurs par :

  • Précision : Mauvaise traduction, omission, ajout
  • Fluidité : Grammaire, orthographe, ponctuation
  • Terminologie : Terme incorrect, terminologie incohérente
  • Style : Registre, formalité, convention locale

Chaque erreur est pondérée par sévérité (critique, majeure, mineure). Le score d'erreur pondéré total donne une évaluation de qualité.

Évaluation Directe : Les évaluateurs humains notent les traductions sur une échelle continue (0–100) pour l'adéquation (transmet-elle le sens ?) et la fluidité (sonne-t-elle naturel ?).

Estimation de Qualité (Sans Référence)

Les modèles d'estimation de qualité prédisent la qualité de traduction sans référence humaine. Ils sont entraînés sur des jugements de qualité humains et peuvent :

  • Signaler les traductions de mauvaise qualité pour révision
  • Prioriser l'effort de post-édition
  • Fournir des retours de qualité en temps réel dans les interfaces TMS

Amélioration de la Qualité de la Traduction Automatique

1. Rédiger un Texte Source Favorable à la Traduction

La qualité du MT commence par la qualité du texte source :

  • Utiliser des phrases simples et claires : Éviter les propositions imbriquées complexes
  • Éviter l'ambiguïté : « Right » (correct ? ou directionnel ?) — être précis
  • Minimiser les idiomes et les expressions familières : « Heads up » → « Avis » ou « Alerte »
  • Garder les chaînes autonomes : Ne pas diviser les phrases entre plusieurs clés de traduction
  • Fournir du contexte : Ajouter des descriptions ou des captures d'écran pour les traducteurs (et pour le MT sensible au contexte)

2. Utiliser des Glossaires Personnalisés

Assurer une terminologie cohérente en créant un glossaire de termes spécifiques au produit avec leurs traductions approuvées par langue. La plupart des plateformes TMS et des API de MT prennent en charge l'application de glossaires.

3. Exploiter la Mémoire de Traduction

La mémoire de traduction garantit que les traductions précédemment approuvées sont réutilisées exactement. De nouvelles suggestions MT ne sont générées que pour le contenu non trouvé dans la TM, réduisant ainsi la surface d'erreur globale.

4. Mettre en Œuvre une Post-Édition Structurée

Les flux de travail MTPE (Machine Translation Post-Editing) se déclinent en deux niveaux :

  • Post-édition légère : Corriger les erreurs qui changent le sens ou sont clairement peu naturelles. Accepter des traductions « suffisamment bonnes ». Approprié pour le contenu interne ou les langues de moindre priorité.
  • Post-édition complète : Éditer la sortie MT pour atteindre la qualité d'une traduction humaine professionnelle. Approprié pour le contenu destiné aux clients dans les marchés principaux.

Définir quel niveau s'applique à chaque type de contenu et paire de langues.

5. Fournir du Contexte aux Moteurs de MT

Lorsque disponible, envoyer des informations contextuelles avec les chaînes source :

  • Contexte de fichier/clé : Le nom de fichier ou le préfixe de clé aide le MT à inférer le domaine
  • Chaînes précédentes/suivantes : Les chaînes environnantes aident à la cohérence
  • Captures d'écran de l'UI : Le contexte visuel réduit l'ambiguïté
  • Descriptions de chaînes : Notes fournies par le développeur sur ce que fait une chaîne

6. Surveiller et Itérer

Suivre la qualité du MT dans le temps :

  • Calculer la distance de post-édition moyenne par paire de langues
  • Identifier les schémas de contenu constamment problématiques
  • Mettre à jour les glossaires en fonction des corrections courantes
  • Envisager l'adaptation de domaine pour les paires de langues avec des problèmes de qualité persistants

FAQ

Quel est un niveau de qualité MT acceptable pour le contenu de production ?

Cela dépend du type de contenu et du public. Pour l'UI de produit orientée client, la sortie MT nécessite généralement une post-édition complète pour atteindre la qualité de production. Pour la documentation d'aide, une post-édition légère peut suffire. Pour les communications internes, le MT brut peut être acceptable. Définir des niveaux de qualité par type de contenu et appliquer le niveau de révision approprié.

Comment les scores BLEU se traduisent-ils en qualité réelle ?

Les scores BLEU sont relatifs, pas absolus. Un score BLEU de 30+ indique généralement des traductions compréhensibles, tandis que 50+ suggère une haute qualité. Cependant, ces chiffres varient considérablement selon la paire de langues et le domaine. BLEU est mieux utilisé pour comparer des systèmes ou suivre les changements de qualité dans le temps, pas pour porter des jugements de qualité absolus sur des traductions individuelles.

Dois-je investir dans l'entraînement de modèles MT personnalisés ?

L'entraînement de modèles personnalisés vaut la peine lorsque : (a) votre domaine a un vocabulaire spécialisé que le MT générique gère mal, (b) vous disposez de suffisamment de données d'entraînement parallèles (typiquement 10 000+ paires de phrases) et (c) les paires de langues dont vous avez besoin ont un volume suffisamment élevé pour justifier l'investissement. Pour la plupart des équipes, les glossaires et la mémoire de traduction apportent des améliorations de qualité substantielles avant que l'entraînement de modèles personnalisé ne devienne nécessaire.

Comments

Loading comments...