Inhaltsverzeichnis
Maschinelle Übersetzungsqualität: Häufige Fehler, Bewertungsmethoden und Verbesserungsstrategien
Wichtigste Erkenntnisse
- Die Qualität maschineller Übersetzungen variiert erheblich je nach Sprachpaar, Fachgebiet und Inhaltstyp
- Häufige MT-Fehler umfassen Halluzinationen (erfundene Inhalte), wörtliche Übersetzungen, terminologische Inkonsistenz sowie Fehler bei Genus und Höflichkeitsform
- Automatisierte Metriken (BLEU, COMET, chrF) liefern grobe Qualitätsschätzungen, menschliche Bewertung bleibt jedoch der Goldstandard
- Post-Editing maschineller Übersetzungen (MTPE) ist der Standard-Workflow für Produktionsinhalte — er kombiniert MT-Geschwindigkeit mit menschlicher Genauigkeit
- Die Verbesserung der MT-Qualität erfordert eine Kombination aus besserem Ausgangstext, benutzerdefinierten Glossaren, Domänenanpassung und strukturierten Post-Editing-Workflows
Häufige Fehler bei maschinellen Übersetzungen
Das Verständnis der Fehlertypen, die MT-Systeme produzieren, hilft Teams beim Aufbau effektiver Review-Workflows.
Halluzinationen
MT-Modelle können Inhalte generieren, die im Ausgangstext nicht vorhanden sind. Dies ist besonders gefährlich, weil die Ausgabe für Nicht-Muttersprachler flüssig und natürlich klingen kann, während sie faktisch falsch ist.
Beispiel: Quelle: „Speichern klicken" → MT-Ausgabe: „Klicken Sie auf Speichern, um Ihre Änderungen zu sichern und die Anwendung zu beenden" (zusätzliche Bedeutung erfunden)
Halluzinationen treten häufiger auf bei:
- Sehr kurzen Zeichenketten mit begrenztem Kontext
- Sprachpaaren mit geringen Ressourcen
- Inhalten, die in der Ausgangssprache mehrdeutig sind
Wörtliche Übersetzung
Wort-für-Wort-Übersetzung ohne Anpassung an die natürlichen Ausdrucksmuster der Zielsprache.
Beispiel: Englisch „It's raining cats and dogs" → Wörtliche französische Übersetzung statt der natürlichen französischen Redewendung „Il pleut des cordes".
Bei Software führen wörtliche Übersetzungen oft zu technisch korrektem, aber unnatürlichem UI-Text, der das Produkt schlecht lokalisiert wirken lässt.
Terminologische Inkonsistenz
MT-Engines halten keine terminologische Konsistenz über mehrere Zeichenketten hinweg aufrecht, sofern keine Glossare explizit konfiguriert sind. Derselbe Quellbegriff kann in verschiedenen Zeichenketten unterschiedlich übersetzt werden.
Beispiel: „Dashboard" wird in einer Zeichenkette als „Tableau de bord" und in einer anderen als „Panneau de contrôle" innerhalb desselben Projekts übersetzt.
Genus- und Höflichkeitsfehler
MT-Systeme verwenden oft standardmäßig ein Genus oder eine Höflichkeitsstufe und wenden diese inkonsistent an.
Beispiel: Deutsche Übersetzung, die formelles „Sie" mit informellem „du" in verschiedenen Zeichenketten derselben Anwendung vermischt.
Kontextmissinterpretation
Kurze Zeichenketten ohne Kontext sind besonders fehleranfällig. Das englische Wort „Open" könnte bedeuten:
- Verb: „Open the file" (Deutsch: „Öffnen")
- Adjektiv: „The file is open" (Deutsch: „Geöffnet")
- Substantiv: „Open (Status)" (Deutsch: „Offen")
MT-Systeme müssen ohne Kontext raten und liegen häufig falsch.
Zahlen- und Formatierungsfehler
MT kann Zahlen, Datumsangaben, Währungen und andere formatierte Inhalte falsch ändern:
- Unangemessene Änderung von Währungssymbolen
- Falsche Neuformatierung von Datumsangaben
- Änderung technischer Werte (Versionsnummern, Maßangaben)
Bewertungsmethoden
Automatisierte Metriken
| Metrik | Was gemessen wird | Stärken | Einschränkungen |
|---|---|---|---|
| BLEU | N-Gramm-Überlappung mit Referenzübersetzung | Schnell, reproduzierbar, weit verbreitet | Bestraft gültige alternative Übersetzungen |
| COMET | Gelernte Qualitätsschätzung mittels neuronaler Modelle | Bessere Korrelation mit menschlichem Urteil als BLEU | Erfordert Modell-Download, sprachabhängig |
| chrF | Zeichenbasierter F-Score | Funktioniert gut für morphologisch reiche Sprachen | Weniger interpretierbar als BLEU |
| TER | Editierabstand zur Referenzübersetzung | Intuitiv (niedriger = weniger Bearbeitungen nötig) | Gleiche referenzabhängige Einschränkung wie BLEU |
Wichtig: Automatisierte Metriken erfordern Referenzübersetzungen (menschlich übersetzte Goldstandards). Sie messen die Ähnlichkeit mit einer Referenz, nicht die absolute Qualität. Eine gültige Übersetzung, die stilistisch von der Referenz abweicht, erzielt einen niedrigeren Score, auch wenn sie vollkommen korrekt ist.
Menschliche Bewertung
Menschliche Bewertung bleibt die zuverlässigste Methode. Gängige Frameworks:
MQM (Multidimensional Quality Metrics): Ein strukturiertes Framework, das Fehler kategorisiert nach:
- Genauigkeit: Fehlerübersetzung, Auslassung, Hinzufügung
- Flüssigkeit: Grammatik, Rechtschreibung, Zeichensetzung
- Terminologie: Falscher Begriff, inkonsistente Terminologie
- Stil: Register, Höflichkeit, lokale Konventionen
Jeder Fehler wird nach Schweregrad gewichtet (kritisch, schwerwiegend, geringfügig). Der gewichtete Gesamtfehlerwert ergibt eine Qualitätsbewertung.
Direkte Bewertung: Menschliche Bewerter beurteilen Übersetzungen auf einer kontinuierlichen Skala (0–100) hinsichtlich Adäquatheit (wird die Bedeutung vermittelt?) und Flüssigkeit (klingt es natürlich?).
Qualitätsschätzung (referenzfrei)
Qualitätsschätzungsmodelle sagen die Übersetzungsqualität ohne menschliche Referenz vorher. Sie werden auf Grundlage menschlicher Qualitätsurteile trainiert und können:
- Minderwertige Übersetzungen zur Überprüfung markieren
- Post-Editing-Aufwand priorisieren
- Echtzeit-Qualitätsfeedback in TMS-Oberflächen liefern
Verbesserung der maschinellen Übersetzungsqualität
1. Übersetzungsfreundlichen Ausgangstext verfassen
MT-Qualität beginnt mit der Qualität des Ausgangstexts:
- Einfache, klare Sätze verwenden: Komplexe verschachtelte Satzstrukturen vermeiden
- Mehrdeutigkeit vermeiden: „Right" (richtig? oder rechts?) — präzise formulieren
- Idiome und Umgangssprache minimieren: „Heads up" → „Hinweis" oder „Warnung"
- Zeichenketten eigenständig halten: Sätze nicht auf mehrere Übersetzungsschlüssel aufteilen
- Kontext bereitstellen: Beschreibungen oder Screenshots für Übersetzer hinzufügen (und für kontextbewusstes MT)
2. Benutzerdefinierte Glossare verwenden
Konsistente Terminologie durch ein Glossar produktspezifischer Begriffe mit genehmigten Übersetzungen je Sprache sicherstellen. Die meisten TMS-Plattformen und MT-APIs unterstützen Glossardurchsetzung.
3. Translation Memory nutzen
Translation Memory stellt sicher, dass zuvor genehmigte Übersetzungen exakt wiederverwendet werden. Neue MT-Vorschläge werden nur für Inhalte generiert, die nicht im TM gefunden werden, was die Gesamtfehlerfläche reduziert.
4. Strukturiertes Post-Editing implementieren
MTPE-Workflows (Machine Translation Post-Editing) gibt es in zwei Stufen:
- Leichtes Post-Editing: Fehler beheben, die die Bedeutung verändern oder deutlich unnatürlich sind. „Gut genug"-Übersetzungen akzeptieren. Geeignet für interne Inhalte oder Sprachen mit niedrigerer Priorität.
- Volles Post-Editing: MT-Ausgabe auf die Qualität einer professionellen menschlichen Übersetzung überarbeiten. Geeignet für kundenseitige Inhalte in Hauptmärkten.
Festlegen, welche Stufe für jeden Inhaltstyp und jedes Sprachpaar gilt.
5. Kontext an MT-Engines bereitstellen
Wenn verfügbar, kontextuelle Informationen zusammen mit Quellzeichenketten übermitteln:
- Datei-/Schlüsselkontext: Der Dateiname oder Schlüsselpräfix hilft MT bei der Domäneninferenz
- Vorherige/nächste Zeichenketten: Umliegende Zeichenketten helfen bei der Konsistenz
- UI-Screenshots: Visueller Kontext reduziert Mehrdeutigkeit
- Zeichenkettenbeschreibungen: Vom Entwickler bereitgestellte Hinweise zur Funktion einer Zeichenkette
6. Überwachen und iterieren
MT-Qualität im Zeitverlauf verfolgen:
- Durchschnittlichen Post-Editing-Abstand pro Sprachpaar berechnen
- Konsistent problematische Inhaltsmuster identifizieren
- Glossare basierend auf häufigen Korrekturen aktualisieren
- Domänenanpassung für Sprachpaare mit anhaltenden Qualitätsproblemen in Betracht ziehen
FAQ
Was ist ein akzeptables MT-Qualitätsniveau für Produktionsinhalte?
Dies hängt vom Inhaltstyp und der Zielgruppe ab. Für kundenseitige Produkt-UI benötigt MT-Ausgabe in der Regel vollständiges Post-Editing, um Produktionsqualität zu erreichen. Für Hilfsdokumentation kann leichtes Post-Editing ausreichen. Für interne Kommunikation kann rohe MT akzeptabel sein. Qualitätsstufen nach Inhaltstyp definieren und das entsprechende Überprüfungsniveau anwenden.
Wie lassen sich BLEU-Scores auf reale Qualität übertragen?
BLEU-Scores sind relativ, nicht absolut. Ein BLEU-Score von 30+ deutet im Allgemeinen auf verständliche Übersetzungen hin, während 50+ auf hohe Qualität hinweist. Diese Zahlen variieren jedoch erheblich je nach Sprachpaar und Domäne. BLEU eignet sich am besten zum Vergleich von Systemen oder zur Verfolgung von Qualitätsveränderungen im Zeitverlauf, nicht für absolute Qualitätsurteile über einzelne Übersetzungen.
Sollte ich in benutzerdefiniertes MT-Modelltraining investieren?
Benutzerdefiniertes Modelltraining lohnt sich, wenn: (a) Ihre Domäne spezialisiertes Vokabular hat, das generisches MT schlecht verarbeitet, (b) Sie ausreichend parallele Trainingsdaten haben (typischerweise 10.000+ Satzpaare) und (c) die benötigten Sprachpaare ein ausreichend hohes Volumen aufweisen, um die Investition zu rechtfertigen. Für die meisten Teams bieten Glossare und Translation Memory erhebliche Qualitätsverbesserungen, bevor benutzerdefiniertes Modelltraining erforderlich wird.