Engineering//10 Min. Lesezeit

Maschinelle Übersetzungsqualität: Häufige Fehler, Bewertungsmethoden und Verbesserungsstrategien

Eray Gündoğmuş
Teilen

Maschinelle Übersetzungsqualität: Häufige Fehler, Bewertungsmethoden und Verbesserungsstrategien

Wichtigste Erkenntnisse

  • Die Qualität maschineller Übersetzungen variiert erheblich je nach Sprachpaar, Fachgebiet und Inhaltstyp
  • Häufige MT-Fehler umfassen Halluzinationen (erfundene Inhalte), wörtliche Übersetzungen, terminologische Inkonsistenz sowie Fehler bei Genus und Höflichkeitsform
  • Automatisierte Metriken (BLEU, COMET, chrF) liefern grobe Qualitätsschätzungen, menschliche Bewertung bleibt jedoch der Goldstandard
  • Post-Editing maschineller Übersetzungen (MTPE) ist der Standard-Workflow für Produktionsinhalte — er kombiniert MT-Geschwindigkeit mit menschlicher Genauigkeit
  • Die Verbesserung der MT-Qualität erfordert eine Kombination aus besserem Ausgangstext, benutzerdefinierten Glossaren, Domänenanpassung und strukturierten Post-Editing-Workflows

Häufige Fehler bei maschinellen Übersetzungen

Das Verständnis der Fehlertypen, die MT-Systeme produzieren, hilft Teams beim Aufbau effektiver Review-Workflows.

Halluzinationen

MT-Modelle können Inhalte generieren, die im Ausgangstext nicht vorhanden sind. Dies ist besonders gefährlich, weil die Ausgabe für Nicht-Muttersprachler flüssig und natürlich klingen kann, während sie faktisch falsch ist.

Beispiel: Quelle: „Speichern klicken" → MT-Ausgabe: „Klicken Sie auf Speichern, um Ihre Änderungen zu sichern und die Anwendung zu beenden" (zusätzliche Bedeutung erfunden)

Halluzinationen treten häufiger auf bei:

  • Sehr kurzen Zeichenketten mit begrenztem Kontext
  • Sprachpaaren mit geringen Ressourcen
  • Inhalten, die in der Ausgangssprache mehrdeutig sind

Wörtliche Übersetzung

Wort-für-Wort-Übersetzung ohne Anpassung an die natürlichen Ausdrucksmuster der Zielsprache.

Beispiel: Englisch „It's raining cats and dogs" → Wörtliche französische Übersetzung statt der natürlichen französischen Redewendung „Il pleut des cordes".

Bei Software führen wörtliche Übersetzungen oft zu technisch korrektem, aber unnatürlichem UI-Text, der das Produkt schlecht lokalisiert wirken lässt.

Terminologische Inkonsistenz

MT-Engines halten keine terminologische Konsistenz über mehrere Zeichenketten hinweg aufrecht, sofern keine Glossare explizit konfiguriert sind. Derselbe Quellbegriff kann in verschiedenen Zeichenketten unterschiedlich übersetzt werden.

Beispiel: „Dashboard" wird in einer Zeichenkette als „Tableau de bord" und in einer anderen als „Panneau de contrôle" innerhalb desselben Projekts übersetzt.

Genus- und Höflichkeitsfehler

MT-Systeme verwenden oft standardmäßig ein Genus oder eine Höflichkeitsstufe und wenden diese inkonsistent an.

Beispiel: Deutsche Übersetzung, die formelles „Sie" mit informellem „du" in verschiedenen Zeichenketten derselben Anwendung vermischt.

Kontextmissinterpretation

Kurze Zeichenketten ohne Kontext sind besonders fehleranfällig. Das englische Wort „Open" könnte bedeuten:

  • Verb: „Open the file" (Deutsch: „Öffnen")
  • Adjektiv: „The file is open" (Deutsch: „Geöffnet")
  • Substantiv: „Open (Status)" (Deutsch: „Offen")

MT-Systeme müssen ohne Kontext raten und liegen häufig falsch.

Zahlen- und Formatierungsfehler

MT kann Zahlen, Datumsangaben, Währungen und andere formatierte Inhalte falsch ändern:

  • Unangemessene Änderung von Währungssymbolen
  • Falsche Neuformatierung von Datumsangaben
  • Änderung technischer Werte (Versionsnummern, Maßangaben)

Bewertungsmethoden

Automatisierte Metriken

MetrikWas gemessen wirdStärkenEinschränkungen
BLEUN-Gramm-Überlappung mit ReferenzübersetzungSchnell, reproduzierbar, weit verbreitetBestraft gültige alternative Übersetzungen
COMETGelernte Qualitätsschätzung mittels neuronaler ModelleBessere Korrelation mit menschlichem Urteil als BLEUErfordert Modell-Download, sprachabhängig
chrFZeichenbasierter F-ScoreFunktioniert gut für morphologisch reiche SprachenWeniger interpretierbar als BLEU
TEREditierabstand zur ReferenzübersetzungIntuitiv (niedriger = weniger Bearbeitungen nötig)Gleiche referenzabhängige Einschränkung wie BLEU

Wichtig: Automatisierte Metriken erfordern Referenzübersetzungen (menschlich übersetzte Goldstandards). Sie messen die Ähnlichkeit mit einer Referenz, nicht die absolute Qualität. Eine gültige Übersetzung, die stilistisch von der Referenz abweicht, erzielt einen niedrigeren Score, auch wenn sie vollkommen korrekt ist.

Menschliche Bewertung

Menschliche Bewertung bleibt die zuverlässigste Methode. Gängige Frameworks:

MQM (Multidimensional Quality Metrics): Ein strukturiertes Framework, das Fehler kategorisiert nach:

  • Genauigkeit: Fehlerübersetzung, Auslassung, Hinzufügung
  • Flüssigkeit: Grammatik, Rechtschreibung, Zeichensetzung
  • Terminologie: Falscher Begriff, inkonsistente Terminologie
  • Stil: Register, Höflichkeit, lokale Konventionen

Jeder Fehler wird nach Schweregrad gewichtet (kritisch, schwerwiegend, geringfügig). Der gewichtete Gesamtfehlerwert ergibt eine Qualitätsbewertung.

Direkte Bewertung: Menschliche Bewerter beurteilen Übersetzungen auf einer kontinuierlichen Skala (0–100) hinsichtlich Adäquatheit (wird die Bedeutung vermittelt?) und Flüssigkeit (klingt es natürlich?).

Qualitätsschätzung (referenzfrei)

Qualitätsschätzungsmodelle sagen die Übersetzungsqualität ohne menschliche Referenz vorher. Sie werden auf Grundlage menschlicher Qualitätsurteile trainiert und können:

  • Minderwertige Übersetzungen zur Überprüfung markieren
  • Post-Editing-Aufwand priorisieren
  • Echtzeit-Qualitätsfeedback in TMS-Oberflächen liefern

Verbesserung der maschinellen Übersetzungsqualität

1. Übersetzungsfreundlichen Ausgangstext verfassen

MT-Qualität beginnt mit der Qualität des Ausgangstexts:

  • Einfache, klare Sätze verwenden: Komplexe verschachtelte Satzstrukturen vermeiden
  • Mehrdeutigkeit vermeiden: „Right" (richtig? oder rechts?) — präzise formulieren
  • Idiome und Umgangssprache minimieren: „Heads up" → „Hinweis" oder „Warnung"
  • Zeichenketten eigenständig halten: Sätze nicht auf mehrere Übersetzungsschlüssel aufteilen
  • Kontext bereitstellen: Beschreibungen oder Screenshots für Übersetzer hinzufügen (und für kontextbewusstes MT)

2. Benutzerdefinierte Glossare verwenden

Konsistente Terminologie durch ein Glossar produktspezifischer Begriffe mit genehmigten Übersetzungen je Sprache sicherstellen. Die meisten TMS-Plattformen und MT-APIs unterstützen Glossardurchsetzung.

3. Translation Memory nutzen

Translation Memory stellt sicher, dass zuvor genehmigte Übersetzungen exakt wiederverwendet werden. Neue MT-Vorschläge werden nur für Inhalte generiert, die nicht im TM gefunden werden, was die Gesamtfehlerfläche reduziert.

4. Strukturiertes Post-Editing implementieren

MTPE-Workflows (Machine Translation Post-Editing) gibt es in zwei Stufen:

  • Leichtes Post-Editing: Fehler beheben, die die Bedeutung verändern oder deutlich unnatürlich sind. „Gut genug"-Übersetzungen akzeptieren. Geeignet für interne Inhalte oder Sprachen mit niedrigerer Priorität.
  • Volles Post-Editing: MT-Ausgabe auf die Qualität einer professionellen menschlichen Übersetzung überarbeiten. Geeignet für kundenseitige Inhalte in Hauptmärkten.

Festlegen, welche Stufe für jeden Inhaltstyp und jedes Sprachpaar gilt.

5. Kontext an MT-Engines bereitstellen

Wenn verfügbar, kontextuelle Informationen zusammen mit Quellzeichenketten übermitteln:

  • Datei-/Schlüsselkontext: Der Dateiname oder Schlüsselpräfix hilft MT bei der Domäneninferenz
  • Vorherige/nächste Zeichenketten: Umliegende Zeichenketten helfen bei der Konsistenz
  • UI-Screenshots: Visueller Kontext reduziert Mehrdeutigkeit
  • Zeichenkettenbeschreibungen: Vom Entwickler bereitgestellte Hinweise zur Funktion einer Zeichenkette

6. Überwachen und iterieren

MT-Qualität im Zeitverlauf verfolgen:

  • Durchschnittlichen Post-Editing-Abstand pro Sprachpaar berechnen
  • Konsistent problematische Inhaltsmuster identifizieren
  • Glossare basierend auf häufigen Korrekturen aktualisieren
  • Domänenanpassung für Sprachpaare mit anhaltenden Qualitätsproblemen in Betracht ziehen

FAQ

Was ist ein akzeptables MT-Qualitätsniveau für Produktionsinhalte?

Dies hängt vom Inhaltstyp und der Zielgruppe ab. Für kundenseitige Produkt-UI benötigt MT-Ausgabe in der Regel vollständiges Post-Editing, um Produktionsqualität zu erreichen. Für Hilfsdokumentation kann leichtes Post-Editing ausreichen. Für interne Kommunikation kann rohe MT akzeptabel sein. Qualitätsstufen nach Inhaltstyp definieren und das entsprechende Überprüfungsniveau anwenden.

Wie lassen sich BLEU-Scores auf reale Qualität übertragen?

BLEU-Scores sind relativ, nicht absolut. Ein BLEU-Score von 30+ deutet im Allgemeinen auf verständliche Übersetzungen hin, während 50+ auf hohe Qualität hinweist. Diese Zahlen variieren jedoch erheblich je nach Sprachpaar und Domäne. BLEU eignet sich am besten zum Vergleich von Systemen oder zur Verfolgung von Qualitätsveränderungen im Zeitverlauf, nicht für absolute Qualitätsurteile über einzelne Übersetzungen.

Sollte ich in benutzerdefiniertes MT-Modelltraining investieren?

Benutzerdefiniertes Modelltraining lohnt sich, wenn: (a) Ihre Domäne spezialisiertes Vokabular hat, das generisches MT schlecht verarbeitet, (b) Sie ausreichend parallele Trainingsdaten haben (typischerweise 10.000+ Satzpaare) und (c) die benötigten Sprachpaare ein ausreichend hohes Volumen aufweisen, um die Investition zu rechtfertigen. Für die meisten Teams bieten Glossare und Translation Memory erhebliche Qualitätsverbesserungen, bevor benutzerdefiniertes Modelltraining erforderlich wird.

Comments

Loading comments...