Inhaltsverzeichnis
Übersetzungsqualitätsmetriken: Messen und Verbessern
„Qualität" in der Übersetzung ist notorisch schwer zu definieren und zu messen. Eine Übersetzung kann korrekt, aber steif sein. Flüssig, aber untreu. Terminologisch richtig, aber kulturell unsensibel. Und was für ein technisches Handbuch als „hohe Qualität" gilt, unterscheidet sich grundlegend von dem, was für eine Marketingkampagne als Qualität gilt.
Trotz dieser Komplexität ist die Messung der Übersetzungsqualität für jede Organisation, die ein Lokalisierungsprogramm in großem Maßstab betreibt, unerlässlich. Ohne Metriken können Sie keine Qualitätsprobleme erkennen, Lieferantenbeziehungen verbessern, datengestützte Toolentscheidungen treffen oder den ROI gegenüber Stakeholdern nachweisen.
Dieser Leitfaden behandelt die wichtigsten Frameworks, Tools und Ansätze zur Messung der Übersetzungsqualität – und wie Sie diese Messungen nutzen können, um kontinuierliche Verbesserungen voranzutreiben.
Warum Qualitätsmessung wichtig ist
Organisationen, die die Übersetzungsqualität nicht systematisch messen, entdecken Qualitätsprobleme in der Regel durch:
- Kundenbeschwerden über verwirrende oder fehlerhafte Übersetzungen
- Support-Tickets aus nicht englischsprachigen Märkten
- Rechtliche Probleme durch falsch übersetzte Compliance-Inhalte
- Gescheiterte Produkteinführungen in lokalisierten Märkten
- Teure Nacharbeiten, nachdem Inhalte bereits veröffentlicht wurden
Proaktive Qualitätsmessung erkennt Probleme früher, wenn sie günstiger zu beheben sind. Sie schafft auch Rechenschaftspflicht in Lieferantenbeziehungen und ermöglicht den objektiven Vergleich von MT-Tools, Übersetzungslieferanten und Workflow-Änderungen.
Die Landschaft der Qualitätsbewertungs-Frameworks
MQM: Multidimensional Quality Metrics
MQM (Multidimensional Quality Metrics) ist das umfassendste und am weitesten verbreitete Framework in der professionellen Lokalisierung. Entwickelt vom QTLaunchPad-Projekt und von ASTM International als F3131 übernommen, bietet MQM eine hierarchische Taxonomie von Übersetzungsfehlertypen.
MQM-Fehlerkategorien (oberste Ebene):
| Kategorie | Beschreibung |
|---|---|
| Accuracy | Die Übersetzung gibt die Quelle nicht treu wieder |
| Fluency | Die Übersetzung klingt in der Zielsprache nicht natürlich |
| Terminology | Begriffe entsprechen nicht dem genehmigten Glossar oder den Fachkonventionen |
| Style | Die Übersetzung verstößt gegen Stilrichtlinien |
| Locale convention | Zahlen, Datumsangaben, Adressen für das Gebietsschema falsch formatiert |
| Verity | Aussagen in der Übersetzung sind sachlich falsch |
Jede Kategorie hat Unterkategorien. Accuracy umfasst zum Beispiel: Fehlerübersetzung, Auslassung, Hinzufügung, nicht übersetzter Inhalt und strukturelle Fehler.
MQM-Bewertung: Jeder Fehler wird nach Typ und Schweregrad (critical, major, minor) klassifiziert. Eine gewichtete Punktzahl wird berechnet:
MQM score = (critical × 25 + major × 5 + minor × 1) / Wortanzahl × 1000
Niedrigere Werte sind besser. Branchen-Benchmarks variieren, aber übliche Schwellenwerte sind:
- < 1,0: Ausgezeichnete Qualität
- 1,0–3,0: Akzeptable Qualität
- 3,0–5,0: Verbesserungsbedarf
5,0: Nicht akzeptable Qualität
LISA QA-Modell
Das LISA (Localization Industry Standards Association) QA-Modell geht MQM voraus und ist einfacher aufgebaut. Es klassifiziert Fehler als:
- Fehlerübersetzung
- Accuracy
- Terminology
- Sprache (Grammatik, Rechtschreibung, Zeichensetzung)
- Style
- Landes-/Gebietsschema-Standard
- Formatierung
LISA QA wird noch immer weit verbreitet eingesetzt, insbesondere in älteren unternehmensinternen Lokalisierungsprogrammen. Es ist weniger differenziert als MQM, aber einfacher zu implementieren.
SAE J2450
Eine vereinfachte Fehlertaxonomie, die von der Automobilindustrie entwickelt wurde. Fünf Fehlertypen: falscher Begriff, syntaktischer Fehler, Auslassung, Wortstrukturfehler, Rechtschreibung/Zeichensetzung. Wird in der Automobil- und verwandten Branchen eingesetzt.
TAUS Dynamic Quality Framework (DQF)
Das TAUS (Translation Automation User Society) DQF bietet vereinfachte Qualitätsbewertungstools, die für den Einsatz in großem Maßstab konzipiert sind. Es umfasst:
- Adäquatheitsskala (1–4): Gibt die Übersetzung die Bedeutung der Quelle wieder?
- Flüssigkeitsskala (1–4): Wie flüssig ist die Sprache in der Übersetzung?
DQF-Tools sind in den wichtigsten CAT-Tools und TMS-Plattformen verfügbar, was sie für die Bewertung großer Volumen praktisch macht.
Automatisierte Qualitätsmetriken
Die menschliche Bewertung ist der Goldstandard, lässt sich jedoch nicht auf Millionen von Wörtern skalieren. Automatisierte Metriken dienen als Näherungswerte für das menschliche Urteil in großem Maßstab.
BLEU (Bilingual Evaluation Understudy)
BLEU misst die Überlappung zwischen einer MT-Ausgabe (oder übersetztem Text) und einer oder mehreren menschlichen Referenzübersetzungen. Es berechnet die N-Gramm-Präzision (wie viele Wortsequenzen in der Übersetzung in den Referenzen vorkommen) mit einer Kürzungsstrafe für zu kurze Übersetzungen.
Interpretation: BLEU-Werte liegen zwischen 0 und 100. Höher ist besser. Aber BLEU korreliert auf Segmentebene schlecht mit menschlichen Urteilen – es ist eine Korpusebenemetrik, die nur zum Vergleich von Systemen nützlich ist, nicht zur Bewertung einzelner Übersetzungen.
Anwendungsfall: Vergleich von MT-Engines oder Messung von Verbesserungen nach einem erneuten Engine-Training. Nicht geeignet für die Qualitätssicherung einzelner Segmente.
COMET (Crosslingual Optimized Metric for Evaluation of Translation)
COMET verwendet ein neuronales Netzwerk, das auf menschlichen Qualitätsurteilen trainiert wurde, um Qualitätspunkte vorherzusagen. Es korreliert deutlich besser mit menschlichen Bewertungen als BLEU, insbesondere auf Segmentebene.
Anwendungsfall: Bewertung der MT-Qualität, Vergleich von Engines, Vorhersage des Post-Editing-Aufwands. Wird zunehmend in produktiven MT-Qualitätsschätzungspipelines eingesetzt.
TER (Translation Edit Rate)
TER misst die Anzahl der Bearbeitungen, die erforderlich sind, um die MT-Ausgabe in die Referenzübersetzung zu überführen. Niedrigerer TER = weniger Bearbeitungen erforderlich = bessere Qualität.
Anwendungsfall: Schätzung des Post-Editing-Aufwands. Kann zur Weiterleitung von Segmenten verwendet werden: Segmente mit niedrigem TER zum Post-Editing, Segmente mit hohem TER zur menschlichen Übersetzung von Grund auf.
ChrF (Character F-score)
ChrF arbeitet auf Zeichenebene statt auf Wortebene. Es schneidet bei morphologisch reichen Sprachen (Deutsch, Türkisch, Finnisch) besser ab als BLEU, da die wortbasierte Übereinstimmung viele korrekte Übersetzungen verpasst, die unterschiedliche morphologische Formen verwenden.
Linguistischer Qualitätssicherungsprozess (LQA)
Automatisierte Metriken erfassen einige Fehler, übersehen aber viele Qualitätsdimensionen – insbesondere Stil, kulturelle Angemessenheit und Terminologie, die nicht im Referenzglossar enthalten ist. LQA ist das menschliche Pendant zu automatisierten Metriken.
Konzeption eines LQA-Programms
Stichprobenstrategie: Es ist nicht möglich, jedes übersetzte Wort zu bewerten. Bestimmen Sie Ihren Stichprobenansatz:
- Zufällige Stichprobe: X % aller übersetzten Inhalte zufällig auswählen und bewerten
- Risikobasierte Stichprobe: Höhere Stichprobenraten für hoch sichtbare oder risikoreiche Inhalte (rechtlich, medizinisch, Marketing)
- Geschichtete Stichprobe: Repräsentativität über Inhaltstypen, Sprachpaare und Übersetzer/Lieferanten sicherstellen
Eine übliche Stichprobenrate beträgt 5–10 % des Wortvolumens, mit 100 % Bewertung für kritische Inhaltstypen.
Qualifikationen der Bewerter: LQA-Bewerter müssen:
- Muttersprachler der Zielsprache sein
- Fachexperten sein (für spezialisierte Inhalte)
- In der spezifischen Fehlertaxonomie und Bewertungsmethodik geschult sein
- Nicht dieselbe Person sein, die den Inhalt übersetzt hat
Kalibrierung: Kalibrieren Sie die Bewerter vor Beginn der LQA, indem mehrere Bewerter dieselbe Stichprobe bewerten und die Ergebnisse vergleichen. Ungelöste Meinungsverschiedenheiten werden zu Kalibrierungsdiskussionen. Regelmäßige Neukalibrierung hält die Bewerter im Einklang, wenn sich die Richtlinien weiterentwickeln.
LQA-Berichtsstruktur
Ein nützlicher LQA-Bericht enthält:
- Gesamtqualitätspunkte und Fehlerverteilung nach Typ und Schweregrad
- Häufigste Fehlertypen und deren Häufigkeit
- Beispiele für jeden Fehlertyp mit Korrekturen
- Trenddaten (verbessert oder verschlechtert sich die Qualität?)
- Umsetzbare Empfehlungen für den Übersetzer/Lieferanten
Qualitätsmessung in großem Maßstab: Geschäftsmetriken
Linguistische Qualitätsmetriken messen die Übersetzung selbst. Geschäftsmetriken messen den Einfluss der Übersetzungsqualität auf das Nutzerverhalten und die Geschäftsergebnisse.
Kundensupportvolumen nach Sprache
Wenn die Übersetzungsqualität schlecht ist, generieren Nutzer, die kein Englisch sprechen, mehr Support-Tickets. Verfolgen Sie das Support-Ticket-Volumen pro Sprache, normalisiert nach der Nutzerpopulation. Dauerhaft höhere Raten in bestimmten Sprachen weisen auf Qualitäts- oder Lokalisierungslücken hin.
Konversionsrate nach Gebietsschema
Verfolgen Sie für E-Commerce, SaaS oder App-Downloads die Konversionsraten nach Gebietsschema. Signifikante Unterleistung in bestimmten Gebietsschemata korreliert häufig mit Problemen bei der Übersetzungsqualität (aber auch UX-, kulturelle oder Preisfaktoren spielen eine Rolle – triangulieren Sie mit anderen Daten).
Nutzerbindung nach Sprache
Verfolgen Sie die 30-Tage-, 90-Tage- und Jahresbindungsraten nach Nutzersprache. Schlechte Lokalisierungsqualität kann sich als Abwanderung statt als sofortige Beschwerden äußern.
App-Store-Bewertungen und -Rezensionen nach Sprache
Beobachten Sie App-Store-Bewertungen aufgeschlüsselt nach Sprache. Qualitatives Rezensions-Mining (ironischerweise mit MT, um Rezensionen in anderen Sprachen zu lesen) kann spezifische Qualitätsbeschwerden aufdecken.
Terminologie-Konsistenzscore
Verfolgen Sie den Prozentsatz der genehmigten Glossarbegriffe, die in übersetzten Inhalten korrekt angewendet werden. Automatisierte Glossarprüfungen in Ihrem TMS oder QA-Tool können diese Metrik für alle Inhalte erstellen.
Qualitätsstandards und SLAs festlegen
Qualitätsmetriken sind nur nützlich, wenn sie an Standards und Rechenschaftspflicht geknüpft sind. Bei der Zusammenarbeit mit Übersetzungslieferanten:
Qualitätsstufen nach Inhaltstyp definieren:
- Stufe 1 (unternehmenskritisch): Rechtlich, Compliance, Produkt-UI → MQM < 1,0
- Stufe 2 (kundenorientiert): Marketing, Hilfeinhalte → MQM < 2,5
- Stufe 3 (intern/geringes Risiko): Interne Dokumente, Entwürfe → MQM < 5,0
LQA-Feedbackschleifen einrichten: LQA-Ergebnisse mit Lieferanten teilen. Lieferanten zur Analyse von Fehlermustern und zur Einreichung von Qualitätsverbesserungsplänen verpflichten. Verbesserungen im Laufe der Zeit verfolgen.
Vertragsklauseln zu Strafzahlungen und Nachbesserung: Für kritische Inhalte vertragliche Nachbesserungsanforderungen aufnehmen (Übersetzer überarbeitet Inhalte, die die Qualitätsschwelle nicht erfüllen, kostenlos) sowie Strafklauseln für systematische Qualitätsmängel.
Siehe Übersetzungsmanagementsysteme dazu, wie TMS-Plattformen Qualitätstracking und Lieferantenmanagement unterstützen.
Kontinuierliche Verbesserung durch Qualitätsdaten
Qualitätsmessung ist am wertvollsten, wenn sie kontinuierliche Verbesserungen vorantreibt:
Ursachenanalyse: Wenn Qualitätsbewertungen schlecht ausfallen, verfolgen Sie Fehler bis zu ihrer Quelle:
- Qualität des Quellinhalts (mehrdeutiger, schlecht geschriebener Quelltext → schlechte Übersetzung)
- Unzureichender Kontext (Übersetzer hatte kein notwendiges Referenzmaterial)
- Terminologielücken (Begriff nicht im Glossar → inkonsistente Übersetzung)
- Kompetenzlücke beim Übersetzer (spezifischer Fehlertyp von einem bestimmten Übersetzer/Lieferanten)
- Prozessversagen (unzureichende Zeit, unzureichender Überprüfungsschritt)
Feedbackschleifen: Fehleranalysen an Übersetzer und Post-Editoren mit spezifischem, umsetzbarem Feedback zurückgeben. Allgemeines Feedback wie „Qualität war schlecht" verbessert zukünftige Ausgaben nicht.
Glossaraktualisierungen: Jeder Terminologiefehler ist ein Signal, dass das Glossar aktualisiert oder besser verteilt werden muss. Einen Prozess aufbauen, bei dem Übersetzer neue Terminologie zur Glossarprüfung markieren können. Erfahren Sie mehr über Translation Glossary Management.
Prozessexperimente: Qualitätsmetriken zur Bewertung von Prozessänderungen nutzen. Hat das Hinzufügen eines zweiten Überprüfungsschritts die Qualität verbessert? Hat der Wechsel der MT-Engine den Post-Editing-Aufwand reduziert? Qualitätsdaten beantworten diese Fragen objektiv.
Ermittlung von Schulungsbedarf: Muster spezifischer Fehlertypen bei mehreren Übersetzern weisen häufig auf Schulungsbedarf hin. Wenn mehrere Übersetzer denselben Fehlertyp machen, kann das Problem an unklaren Richtlinien liegen und nicht an den Fähigkeiten einzelner Übersetzer.
Qualitätsmanagement für verschiedene Übersetzungsansätze
Qualitätsstandards und Messansätze unterscheiden sich je nach Übersetzungsmethode:
Menschliche Übersetzung: Vollständige MQM-Bewertung auf LQA-Stichproben anwenden. Hohe Bewertungen erwarten, aber auf Terminologieinkonsistenz und Stilabweichungen achten.
MT + Post-Editing: Sowohl die rohe MT-Qualität (automatisierte Metriken) als auch die Post-Editing-Qualität (LQA) verfolgen. Auch den Post-Editing-Aufwand messen. Workflow-Details finden Sie unter Machine Translation Post-Editing.
KI-Übersetzung: Qualitätserwartungen nach Inhaltstyp und wie KI-Übersetzungsqualität effektiv gemessen werden kann, finden Sie unter AI Translation vs. Human Translation.
Bringen Sie Ihre App mit better-i18n auf den Weltmarkt
better-i18n vereint KI-gestützte Übersetzungen, git-native Workflows und globale CDN-Auslieferung in einer entwicklerzentrierten Plattform. Hören Sie auf, Tabellenkalkulationen zu verwalten, und beginnen Sie, in jeder Sprache zu liefern.
Kostenlos starten → · Funktionen entdecken · Dokumentation lesen