Engineering/2. März 2026/10 Min. Lesezeit

Maschinelle Übersetzungsqualität: Häufige Fehler, Bewertungsmethoden und Verbesserungsstrategien

Eray Gündoğmuş

Inhaltsverzeichnis

Maschinelle Übersetzungsqualität: Häufige Fehler, Bewertungsmethoden und Verbesserungsstrategien

Wichtigste Erkenntnisse

Die Qualität maschineller Übersetzungen variiert erheblich je nach Sprachpaar, Fachgebiet und Inhaltstyp
Häufige MT-Fehler umfassen Halluzinationen (erfundene Inhalte), wörtliche Übersetzungen, terminologische Inkonsistenz sowie Fehler bei Genus und Höflichkeitsform
Automatisierte Metriken (BLEU, COMET, chrF) liefern grobe Qualitätsschätzungen, menschliche Bewertung bleibt jedoch der Goldstandard
Post-Editing maschineller Übersetzungen (MTPE) ist der Standard-Workflow für Produktionsinhalte — er kombiniert MT-Geschwindigkeit mit menschlicher Genauigkeit
Die Verbesserung der MT-Qualität erfordert eine Kombination aus besserem Ausgangstext, benutzerdefinierten Glossaren, Domänenanpassung und strukturierten Post-Editing-Workflows

Häufige Fehler bei maschinellen Übersetzungen

Das Verständnis der Fehlertypen, die MT-Systeme produzieren, hilft Teams beim Aufbau effektiver Review-Workflows.

Halluzinationen

MT-Modelle können Inhalte generieren, die im Ausgangstext nicht vorhanden sind. Dies ist besonders gefährlich, weil die Ausgabe für Nicht-Muttersprachler flüssig und natürlich klingen kann, während sie faktisch falsch ist.

Beispiel: Quelle: „Speichern klicken" → MT-Ausgabe: „Klicken Sie auf Speichern, um Ihre Änderungen zu sichern und die Anwendung zu beenden" (zusätzliche Bedeutung erfunden)

Halluzinationen treten häufiger auf bei:

Sehr kurzen Zeichenketten mit begrenztem Kontext
Sprachpaaren mit geringen Ressourcen
Inhalten, die in der Ausgangssprache mehrdeutig sind

Wörtliche Übersetzung

Wort-für-Wort-Übersetzung ohne Anpassung an die natürlichen Ausdrucksmuster der Zielsprache.

Beispiel: Englisch „It's raining cats and dogs" → Wörtliche französische Übersetzung statt der natürlichen französischen Redewendung „Il pleut des cordes".

Bei Software führen wörtliche Übersetzungen oft zu technisch korrektem, aber unnatürlichem UI-Text, der das Produkt schlecht lokalisiert wirken lässt.

Terminologische Inkonsistenz

MT-Engines halten keine terminologische Konsistenz über mehrere Zeichenketten hinweg aufrecht, sofern keine Glossare explizit konfiguriert sind. Derselbe Quellbegriff kann in verschiedenen Zeichenketten unterschiedlich übersetzt werden.

Beispiel: „Dashboard" wird in einer Zeichenkette als „Tableau de bord" und in einer anderen als „Panneau de contrôle" innerhalb desselben Projekts übersetzt.

Genus- und Höflichkeitsfehler

MT-Systeme verwenden oft standardmäßig ein Genus oder eine Höflichkeitsstufe und wenden diese inkonsistent an.

Beispiel: Deutsche Übersetzung, die formelles „Sie" mit informellem „du" in verschiedenen Zeichenketten derselben Anwendung vermischt.

Kontextmissinterpretation

Kurze Zeichenketten ohne Kontext sind besonders fehleranfällig. Das englische Wort „Open" könnte bedeuten:

Verb: „Open the file" (Deutsch: „Öffnen")
Adjektiv: „The file is open" (Deutsch: „Geöffnet")
Substantiv: „Open (Status)" (Deutsch: „Offen")

MT-Systeme müssen ohne Kontext raten und liegen häufig falsch.

Zahlen- und Formatierungsfehler

MT kann Zahlen, Datumsangaben, Währungen und andere formatierte Inhalte falsch ändern:

Unangemessene Änderung von Währungssymbolen
Falsche Neuformatierung von Datumsangaben
Änderung technischer Werte (Versionsnummern, Maßangaben)

Bewertungsmethoden

Automatisierte Metriken

Metrik	Was gemessen wird	Stärken	Einschränkungen
BLEU	N-Gramm-Überlappung mit Referenzübersetzung	Schnell, reproduzierbar, weit verbreitet	Bestraft gültige alternative Übersetzungen
COMET	Gelernte Qualitätsschätzung mittels neuronaler Modelle	Bessere Korrelation mit menschlichem Urteil als BLEU	Erfordert Modell-Download, sprachabhängig
chrF	Zeichenbasierter F-Score	Funktioniert gut für morphologisch reiche Sprachen	Weniger interpretierbar als BLEU
TER	Editierabstand zur Referenzübersetzung	Intuitiv (niedriger = weniger Bearbeitungen nötig)	Gleiche referenzabhängige Einschränkung wie BLEU

Wichtig: Automatisierte Metriken erfordern Referenzübersetzungen (menschlich übersetzte Goldstandards). Sie messen die Ähnlichkeit mit einer Referenz, nicht die absolute Qualität. Eine gültige Übersetzung, die stilistisch von der Referenz abweicht, erzielt einen niedrigeren Score, auch wenn sie vollkommen korrekt ist.

Menschliche Bewertung

Menschliche Bewertung bleibt die zuverlässigste Methode. Gängige Frameworks:

MQM (Multidimensional Quality Metrics): Ein strukturiertes Framework, das Fehler kategorisiert nach:

Genauigkeit: Fehlerübersetzung, Auslassung, Hinzufügung
Flüssigkeit: Grammatik, Rechtschreibung, Zeichensetzung
Terminologie: Falscher Begriff, inkonsistente Terminologie
Stil: Register, Höflichkeit, lokale Konventionen

Jeder Fehler wird nach Schweregrad gewichtet (kritisch, schwerwiegend, geringfügig). Der gewichtete Gesamtfehlerwert ergibt eine Qualitätsbewertung.

Direkte Bewertung: Menschliche Bewerter beurteilen Übersetzungen auf einer kontinuierlichen Skala (0–100) hinsichtlich Adäquatheit (wird die Bedeutung vermittelt?) und Flüssigkeit (klingt es natürlich?).

Qualitätsschätzung (referenzfrei)

Qualitätsschätzungsmodelle sagen die Übersetzungsqualität ohne menschliche Referenz vorher. Sie werden auf Grundlage menschlicher Qualitätsurteile trainiert und können:

Minderwertige Übersetzungen zur Überprüfung markieren
Post-Editing-Aufwand priorisieren
Echtzeit-Qualitätsfeedback in TMS-Oberflächen liefern

Verbesserung der maschinellen Übersetzungsqualität

1. Übersetzungsfreundlichen Ausgangstext verfassen

MT-Qualität beginnt mit der Qualität des Ausgangstexts:

Einfache, klare Sätze verwenden: Komplexe verschachtelte Satzstrukturen vermeiden
Mehrdeutigkeit vermeiden: „Right" (richtig? oder rechts?) — präzise formulieren
Idiome und Umgangssprache minimieren: „Heads up" → „Hinweis" oder „Warnung"
Zeichenketten eigenständig halten: Sätze nicht auf mehrere Übersetzungsschlüssel aufteilen
Kontext bereitstellen: Beschreibungen oder Screenshots für Übersetzer hinzufügen (und für kontextbewusstes MT)

2. Benutzerdefinierte Glossare verwenden

Konsistente Terminologie durch ein Glossar produktspezifischer Begriffe mit genehmigten Übersetzungen je Sprache sicherstellen. Die meisten TMS-Plattformen und MT-APIs unterstützen Glossardurchsetzung.

3. Translation Memory nutzen

Translation Memory stellt sicher, dass zuvor genehmigte Übersetzungen exakt wiederverwendet werden. Neue MT-Vorschläge werden nur für Inhalte generiert, die nicht im TM gefunden werden, was die Gesamtfehlerfläche reduziert.

4. Strukturiertes Post-Editing implementieren

MTPE-Workflows (Machine Translation Post-Editing) gibt es in zwei Stufen:

Leichtes Post-Editing: Fehler beheben, die die Bedeutung verändern oder deutlich unnatürlich sind. „Gut genug"-Übersetzungen akzeptieren. Geeignet für interne Inhalte oder Sprachen mit niedrigerer Priorität.
Volles Post-Editing: MT-Ausgabe auf die Qualität einer professionellen menschlichen Übersetzung überarbeiten. Geeignet für kundenseitige Inhalte in Hauptmärkten.

Festlegen, welche Stufe für jeden Inhaltstyp und jedes Sprachpaar gilt.

5. Kontext an MT-Engines bereitstellen

Wenn verfügbar, kontextuelle Informationen zusammen mit Quellzeichenketten übermitteln:

Datei-/Schlüsselkontext: Der Dateiname oder Schlüsselpräfix hilft MT bei der Domäneninferenz
Vorherige/nächste Zeichenketten: Umliegende Zeichenketten helfen bei der Konsistenz
UI-Screenshots: Visueller Kontext reduziert Mehrdeutigkeit
Zeichenkettenbeschreibungen: Vom Entwickler bereitgestellte Hinweise zur Funktion einer Zeichenkette

6. Überwachen und iterieren

MT-Qualität im Zeitverlauf verfolgen:

Durchschnittlichen Post-Editing-Abstand pro Sprachpaar berechnen
Konsistent problematische Inhaltsmuster identifizieren
Glossare basierend auf häufigen Korrekturen aktualisieren
Domänenanpassung für Sprachpaare mit anhaltenden Qualitätsproblemen in Betracht ziehen

FAQ

Was ist ein akzeptables MT-Qualitätsniveau für Produktionsinhalte?

Dies hängt vom Inhaltstyp und der Zielgruppe ab. Für kundenseitige Produkt-UI benötigt MT-Ausgabe in der Regel vollständiges Post-Editing, um Produktionsqualität zu erreichen. Für Hilfsdokumentation kann leichtes Post-Editing ausreichen. Für interne Kommunikation kann rohe MT akzeptabel sein. Qualitätsstufen nach Inhaltstyp definieren und das entsprechende Überprüfungsniveau anwenden.

Wie lassen sich BLEU-Scores auf reale Qualität übertragen?

BLEU-Scores sind relativ, nicht absolut. Ein BLEU-Score von 30+ deutet im Allgemeinen auf verständliche Übersetzungen hin, während 50+ auf hohe Qualität hinweist. Diese Zahlen variieren jedoch erheblich je nach Sprachpaar und Domäne. BLEU eignet sich am besten zum Vergleich von Systemen oder zur Verfolgung von Qualitätsveränderungen im Zeitverlauf, nicht für absolute Qualitätsurteile über einzelne Übersetzungen.

Sollte ich in benutzerdefiniertes MT-Modelltraining investieren?

Benutzerdefiniertes Modelltraining lohnt sich, wenn: (a) Ihre Domäne spezialisiertes Vokabular hat, das generisches MT schlecht verarbeitet, (b) Sie ausreichend parallele Trainingsdaten haben (typischerweise 10.000+ Satzpaare) und (c) die benötigten Sprachpaare ein ausreichend hohes Volumen aufweisen, um die Investition zu rechtfertigen. Für die meisten Teams bieten Glossare und Translation Memory erhebliche Qualitätsverbesserungen, bevor benutzerdefiniertes Modelltraining erforderlich wird.

Comments

Loading comments...

Maschinelle Übersetzungsqualität: Häufige Fehler, Bewertungsmethoden und Verbesserungsstrategien

Maschinelle Übersetzungsqualität: Häufige Fehler, Bewertungsmethoden und Verbesserungsstrategien

Wichtigste Erkenntnisse

Häufige Fehler bei maschinellen Übersetzungen

Halluzinationen

Wörtliche Übersetzung

Terminologische Inkonsistenz

Genus- und Höflichkeitsfehler

Kontextmissinterpretation

Zahlen- und Formatierungsfehler

Bewertungsmethoden

Automatisierte Metriken

Menschliche Bewertung

Qualitätsschätzung (referenzfrei)

Verbesserung der maschinellen Übersetzungsqualität

1. Übersetzungsfreundlichen Ausgangstext verfassen

2. Benutzerdefinierte Glossare verwenden

3. Translation Memory nutzen

4. Strukturiertes Post-Editing implementieren

5. Kontext an MT-Engines bereitstellen

6. Überwachen und iterieren

FAQ

Was ist ein akzeptables MT-Qualitätsniveau für Produktionsinhalte?

Wie lassen sich BLEU-Scores auf reale Qualität übertragen?

Sollte ich in benutzerdefiniertes MT-Modelltraining investieren?

Comments

Ähnliche Beiträge

BULK TEST v3 — newer

Online-Übersetzungstools für Entwickler: Jenseits von Google Translate

KI-gestützte Übersetzungsworkflows: Von Machine Translation bis Post-Editing

MCP for Localization: How AI Agents Can Manage Your Translations

Mehr entdecken

Für Entwickler

Für Übersetzer

Für Produktteams

Alle Funktionen