SEO/1. März 2026/13 Min. Lesezeit

Übersetzungsqualitätsmetriken: Messen und Verbessern

Eray Gündoğmuş

Inhaltsverzeichnis

Übersetzungsqualitätsmetriken: Messen und Verbessern

„Qualität" in der Übersetzung ist notorisch schwer zu definieren und zu messen. Eine Übersetzung kann korrekt, aber steif sein. Flüssig, aber untreu. Terminologisch richtig, aber kulturell unsensibel. Und was für ein technisches Handbuch als „hohe Qualität" gilt, unterscheidet sich grundlegend von dem, was für eine Marketingkampagne als Qualität gilt.

Trotz dieser Komplexität ist die Messung der Übersetzungsqualität für jede Organisation, die ein Lokalisierungsprogramm in großem Maßstab betreibt, unerlässlich. Ohne Metriken können Sie keine Qualitätsprobleme erkennen, Lieferantenbeziehungen verbessern, datengestützte Toolentscheidungen treffen oder den ROI gegenüber Stakeholdern nachweisen.

Dieser Leitfaden behandelt die wichtigsten Frameworks, Tools und Ansätze zur Messung der Übersetzungsqualität – und wie Sie diese Messungen nutzen können, um kontinuierliche Verbesserungen voranzutreiben.

Warum Qualitätsmessung wichtig ist

Organisationen, die die Übersetzungsqualität nicht systematisch messen, entdecken Qualitätsprobleme in der Regel durch:

Kundenbeschwerden über verwirrende oder fehlerhafte Übersetzungen
Support-Tickets aus nicht englischsprachigen Märkten
Rechtliche Probleme durch falsch übersetzte Compliance-Inhalte
Gescheiterte Produkteinführungen in lokalisierten Märkten
Teure Nacharbeiten, nachdem Inhalte bereits veröffentlicht wurden

Proaktive Qualitätsmessung erkennt Probleme früher, wenn sie günstiger zu beheben sind. Sie schafft auch Rechenschaftspflicht in Lieferantenbeziehungen und ermöglicht den objektiven Vergleich von MT-Tools, Übersetzungslieferanten und Workflow-Änderungen.

Die Landschaft der Qualitätsbewertungs-Frameworks

MQM: Multidimensional Quality Metrics

MQM (Multidimensional Quality Metrics) ist das umfassendste und am weitesten verbreitete Framework in der professionellen Lokalisierung. Entwickelt vom QTLaunchPad-Projekt und von ASTM International als F3131 übernommen, bietet MQM eine hierarchische Taxonomie von Übersetzungsfehlertypen.

MQM-Fehlerkategorien (oberste Ebene):

Kategorie	Beschreibung
Accuracy	Die Übersetzung gibt die Quelle nicht treu wieder
Fluency	Die Übersetzung klingt in der Zielsprache nicht natürlich
Terminology	Begriffe entsprechen nicht dem genehmigten Glossar oder den Fachkonventionen
Style	Die Übersetzung verstößt gegen Stilrichtlinien
Locale convention	Zahlen, Datumsangaben, Adressen für das Gebietsschema falsch formatiert
Verity	Aussagen in der Übersetzung sind sachlich falsch

Jede Kategorie hat Unterkategorien. Accuracy umfasst zum Beispiel: Fehlerübersetzung, Auslassung, Hinzufügung, nicht übersetzter Inhalt und strukturelle Fehler.

MQM-Bewertung: Jeder Fehler wird nach Typ und Schweregrad (critical, major, minor) klassifiziert. Eine gewichtete Punktzahl wird berechnet:

MQM score = (critical × 25 + major × 5 + minor × 1) / Wortanzahl × 1000

Niedrigere Werte sind besser. Branchen-Benchmarks variieren, aber übliche Schwellenwerte sind:

< 1,0: Ausgezeichnete Qualität
1,0–3,0: Akzeptable Qualität
3,0–5,0: Verbesserungsbedarf
5,0: Nicht akzeptable Qualität

LISA QA-Modell

Das LISA (Localization Industry Standards Association) QA-Modell geht MQM voraus und ist einfacher aufgebaut. Es klassifiziert Fehler als:

Fehlerübersetzung
Accuracy
Terminology
Sprache (Grammatik, Rechtschreibung, Zeichensetzung)
Style
Landes-/Gebietsschema-Standard
Formatierung

LISA QA wird noch immer weit verbreitet eingesetzt, insbesondere in älteren unternehmensinternen Lokalisierungsprogrammen. Es ist weniger differenziert als MQM, aber einfacher zu implementieren.

SAE J2450

Eine vereinfachte Fehlertaxonomie, die von der Automobilindustrie entwickelt wurde. Fünf Fehlertypen: falscher Begriff, syntaktischer Fehler, Auslassung, Wortstrukturfehler, Rechtschreibung/Zeichensetzung. Wird in der Automobil- und verwandten Branchen eingesetzt.

TAUS Dynamic Quality Framework (DQF)

Das TAUS (Translation Automation User Society) DQF bietet vereinfachte Qualitätsbewertungstools, die für den Einsatz in großem Maßstab konzipiert sind. Es umfasst:

Adäquatheitsskala (1–4): Gibt die Übersetzung die Bedeutung der Quelle wieder?
Flüssigkeitsskala (1–4): Wie flüssig ist die Sprache in der Übersetzung?

DQF-Tools sind in den wichtigsten CAT-Tools und TMS-Plattformen verfügbar, was sie für die Bewertung großer Volumen praktisch macht.

Automatisierte Qualitätsmetriken

Die menschliche Bewertung ist der Goldstandard, lässt sich jedoch nicht auf Millionen von Wörtern skalieren. Automatisierte Metriken dienen als Näherungswerte für das menschliche Urteil in großem Maßstab.

BLEU (Bilingual Evaluation Understudy)

BLEU misst die Überlappung zwischen einer MT-Ausgabe (oder übersetztem Text) und einer oder mehreren menschlichen Referenzübersetzungen. Es berechnet die N-Gramm-Präzision (wie viele Wortsequenzen in der Übersetzung in den Referenzen vorkommen) mit einer Kürzungsstrafe für zu kurze Übersetzungen.

Interpretation: BLEU-Werte liegen zwischen 0 und 100. Höher ist besser. Aber BLEU korreliert auf Segmentebene schlecht mit menschlichen Urteilen – es ist eine Korpusebenemetrik, die nur zum Vergleich von Systemen nützlich ist, nicht zur Bewertung einzelner Übersetzungen.

Anwendungsfall: Vergleich von MT-Engines oder Messung von Verbesserungen nach einem erneuten Engine-Training. Nicht geeignet für die Qualitätssicherung einzelner Segmente.

COMET (Crosslingual Optimized Metric for Evaluation of Translation)

COMET verwendet ein neuronales Netzwerk, das auf menschlichen Qualitätsurteilen trainiert wurde, um Qualitätspunkte vorherzusagen. Es korreliert deutlich besser mit menschlichen Bewertungen als BLEU, insbesondere auf Segmentebene.

Anwendungsfall: Bewertung der MT-Qualität, Vergleich von Engines, Vorhersage des Post-Editing-Aufwands. Wird zunehmend in produktiven MT-Qualitätsschätzungspipelines eingesetzt.

TER (Translation Edit Rate)

TER misst die Anzahl der Bearbeitungen, die erforderlich sind, um die MT-Ausgabe in die Referenzübersetzung zu überführen. Niedrigerer TER = weniger Bearbeitungen erforderlich = bessere Qualität.

Anwendungsfall: Schätzung des Post-Editing-Aufwands. Kann zur Weiterleitung von Segmenten verwendet werden: Segmente mit niedrigem TER zum Post-Editing, Segmente mit hohem TER zur menschlichen Übersetzung von Grund auf.

ChrF (Character F-score)

ChrF arbeitet auf Zeichenebene statt auf Wortebene. Es schneidet bei morphologisch reichen Sprachen (Deutsch, Türkisch, Finnisch) besser ab als BLEU, da die wortbasierte Übereinstimmung viele korrekte Übersetzungen verpasst, die unterschiedliche morphologische Formen verwenden.

Linguistischer Qualitätssicherungsprozess (LQA)

Automatisierte Metriken erfassen einige Fehler, übersehen aber viele Qualitätsdimensionen – insbesondere Stil, kulturelle Angemessenheit und Terminologie, die nicht im Referenzglossar enthalten ist. LQA ist das menschliche Pendant zu automatisierten Metriken.

Konzeption eines LQA-Programms

Stichprobenstrategie: Es ist nicht möglich, jedes übersetzte Wort zu bewerten. Bestimmen Sie Ihren Stichprobenansatz:

Zufällige Stichprobe: X % aller übersetzten Inhalte zufällig auswählen und bewerten
Risikobasierte Stichprobe: Höhere Stichprobenraten für hoch sichtbare oder risikoreiche Inhalte (rechtlich, medizinisch, Marketing)
Geschichtete Stichprobe: Repräsentativität über Inhaltstypen, Sprachpaare und Übersetzer/Lieferanten sicherstellen

Eine übliche Stichprobenrate beträgt 5–10 % des Wortvolumens, mit 100 % Bewertung für kritische Inhaltstypen.

Qualifikationen der Bewerter: LQA-Bewerter müssen:

Muttersprachler der Zielsprache sein
Fachexperten sein (für spezialisierte Inhalte)
In der spezifischen Fehlertaxonomie und Bewertungsmethodik geschult sein
Nicht dieselbe Person sein, die den Inhalt übersetzt hat

Kalibrierung: Kalibrieren Sie die Bewerter vor Beginn der LQA, indem mehrere Bewerter dieselbe Stichprobe bewerten und die Ergebnisse vergleichen. Ungelöste Meinungsverschiedenheiten werden zu Kalibrierungsdiskussionen. Regelmäßige Neukalibrierung hält die Bewerter im Einklang, wenn sich die Richtlinien weiterentwickeln.

LQA-Berichtsstruktur

Ein nützlicher LQA-Bericht enthält:

Gesamtqualitätspunkte und Fehlerverteilung nach Typ und Schweregrad
Häufigste Fehlertypen und deren Häufigkeit
Beispiele für jeden Fehlertyp mit Korrekturen
Trenddaten (verbessert oder verschlechtert sich die Qualität?)
Umsetzbare Empfehlungen für den Übersetzer/Lieferanten

Qualitätsmessung in großem Maßstab: Geschäftsmetriken

Linguistische Qualitätsmetriken messen die Übersetzung selbst. Geschäftsmetriken messen den Einfluss der Übersetzungsqualität auf das Nutzerverhalten und die Geschäftsergebnisse.

Kundensupportvolumen nach Sprache

Wenn die Übersetzungsqualität schlecht ist, generieren Nutzer, die kein Englisch sprechen, mehr Support-Tickets. Verfolgen Sie das Support-Ticket-Volumen pro Sprache, normalisiert nach der Nutzerpopulation. Dauerhaft höhere Raten in bestimmten Sprachen weisen auf Qualitäts- oder Lokalisierungslücken hin.

Konversionsrate nach Gebietsschema

Verfolgen Sie für E-Commerce, SaaS oder App-Downloads die Konversionsraten nach Gebietsschema. Signifikante Unterleistung in bestimmten Gebietsschemata korreliert häufig mit Problemen bei der Übersetzungsqualität (aber auch UX-, kulturelle oder Preisfaktoren spielen eine Rolle – triangulieren Sie mit anderen Daten).

Nutzerbindung nach Sprache

Verfolgen Sie die 30-Tage-, 90-Tage- und Jahresbindungsraten nach Nutzersprache. Schlechte Lokalisierungsqualität kann sich als Abwanderung statt als sofortige Beschwerden äußern.

App-Store-Bewertungen und -Rezensionen nach Sprache

Beobachten Sie App-Store-Bewertungen aufgeschlüsselt nach Sprache. Qualitatives Rezensions-Mining (ironischerweise mit MT, um Rezensionen in anderen Sprachen zu lesen) kann spezifische Qualitätsbeschwerden aufdecken.

Terminologie-Konsistenzscore

Verfolgen Sie den Prozentsatz der genehmigten Glossarbegriffe, die in übersetzten Inhalten korrekt angewendet werden. Automatisierte Glossarprüfungen in Ihrem TMS oder QA-Tool können diese Metrik für alle Inhalte erstellen.

Qualitätsstandards und SLAs festlegen

Qualitätsmetriken sind nur nützlich, wenn sie an Standards und Rechenschaftspflicht geknüpft sind. Bei der Zusammenarbeit mit Übersetzungslieferanten:

Qualitätsstufen nach Inhaltstyp definieren:

Stufe 1 (unternehmenskritisch): Rechtlich, Compliance, Produkt-UI → MQM < 1,0
Stufe 2 (kundenorientiert): Marketing, Hilfeinhalte → MQM < 2,5
Stufe 3 (intern/geringes Risiko): Interne Dokumente, Entwürfe → MQM < 5,0

LQA-Feedbackschleifen einrichten: LQA-Ergebnisse mit Lieferanten teilen. Lieferanten zur Analyse von Fehlermustern und zur Einreichung von Qualitätsverbesserungsplänen verpflichten. Verbesserungen im Laufe der Zeit verfolgen.

Vertragsklauseln zu Strafzahlungen und Nachbesserung: Für kritische Inhalte vertragliche Nachbesserungsanforderungen aufnehmen (Übersetzer überarbeitet Inhalte, die die Qualitätsschwelle nicht erfüllen, kostenlos) sowie Strafklauseln für systematische Qualitätsmängel.

Siehe Übersetzungsmanagementsysteme dazu, wie TMS-Plattformen Qualitätstracking und Lieferantenmanagement unterstützen.

Kontinuierliche Verbesserung durch Qualitätsdaten

Qualitätsmessung ist am wertvollsten, wenn sie kontinuierliche Verbesserungen vorantreibt:

Ursachenanalyse: Wenn Qualitätsbewertungen schlecht ausfallen, verfolgen Sie Fehler bis zu ihrer Quelle:

Qualität des Quellinhalts (mehrdeutiger, schlecht geschriebener Quelltext → schlechte Übersetzung)
Unzureichender Kontext (Übersetzer hatte kein notwendiges Referenzmaterial)
Terminologielücken (Begriff nicht im Glossar → inkonsistente Übersetzung)
Kompetenzlücke beim Übersetzer (spezifischer Fehlertyp von einem bestimmten Übersetzer/Lieferanten)
Prozessversagen (unzureichende Zeit, unzureichender Überprüfungsschritt)

Feedbackschleifen: Fehleranalysen an Übersetzer und Post-Editoren mit spezifischem, umsetzbarem Feedback zurückgeben. Allgemeines Feedback wie „Qualität war schlecht" verbessert zukünftige Ausgaben nicht.

Glossaraktualisierungen: Jeder Terminologiefehler ist ein Signal, dass das Glossar aktualisiert oder besser verteilt werden muss. Einen Prozess aufbauen, bei dem Übersetzer neue Terminologie zur Glossarprüfung markieren können. Erfahren Sie mehr über Translation Glossary Management.

Prozessexperimente: Qualitätsmetriken zur Bewertung von Prozessänderungen nutzen. Hat das Hinzufügen eines zweiten Überprüfungsschritts die Qualität verbessert? Hat der Wechsel der MT-Engine den Post-Editing-Aufwand reduziert? Qualitätsdaten beantworten diese Fragen objektiv.

Ermittlung von Schulungsbedarf: Muster spezifischer Fehlertypen bei mehreren Übersetzern weisen häufig auf Schulungsbedarf hin. Wenn mehrere Übersetzer denselben Fehlertyp machen, kann das Problem an unklaren Richtlinien liegen und nicht an den Fähigkeiten einzelner Übersetzer.

Qualitätsmanagement für verschiedene Übersetzungsansätze

Qualitätsstandards und Messansätze unterscheiden sich je nach Übersetzungsmethode:

Menschliche Übersetzung: Vollständige MQM-Bewertung auf LQA-Stichproben anwenden. Hohe Bewertungen erwarten, aber auf Terminologieinkonsistenz und Stilabweichungen achten.

MT + Post-Editing: Sowohl die rohe MT-Qualität (automatisierte Metriken) als auch die Post-Editing-Qualität (LQA) verfolgen. Auch den Post-Editing-Aufwand messen. Workflow-Details finden Sie unter Machine Translation Post-Editing.

KI-Übersetzung: Qualitätserwartungen nach Inhaltstyp und wie KI-Übersetzungsqualität effektiv gemessen werden kann, finden Sie unter AI Translation vs. Human Translation.

Bringen Sie Ihre App mit better-i18n auf den Weltmarkt

better-i18n vereint KI-gestützte Übersetzungen, git-native Workflows und globale CDN-Auslieferung in einer entwicklerzentrierten Plattform. Hören Sie auf, Tabellenkalkulationen zu verwalten, und beginnen Sie, in jeder Sprache zu liefern.

Kostenlos starten → · Funktionen entdecken · Dokumentation lesen

Comments

Loading comments...

Übersetzungsqualitätsmetriken: Messen und Verbessern

Übersetzungsqualitätsmetriken: Messen und Verbessern

Warum Qualitätsmessung wichtig ist

Die Landschaft der Qualitätsbewertungs-Frameworks

MQM: Multidimensional Quality Metrics

LISA QA-Modell

SAE J2450

TAUS Dynamic Quality Framework (DQF)

Automatisierte Qualitätsmetriken

BLEU (Bilingual Evaluation Understudy)

COMET (Crosslingual Optimized Metric for Evaluation of Translation)

TER (Translation Edit Rate)

ChrF (Character F-score)

Linguistischer Qualitätssicherungsprozess (LQA)

Konzeption eines LQA-Programms

LQA-Berichtsstruktur

Qualitätsmessung in großem Maßstab: Geschäftsmetriken

Kundensupportvolumen nach Sprache

Konversionsrate nach Gebietsschema

Nutzerbindung nach Sprache

App-Store-Bewertungen und -Rezensionen nach Sprache

Terminologie-Konsistenzscore

Qualitätsstandards und SLAs festlegen

Kontinuierliche Verbesserung durch Qualitätsdaten

Qualitätsmanagement für verschiedene Übersetzungsansätze

Bringen Sie Ihre App mit better-i18n auf den Weltmarkt

Comments

Ähnliche Beiträge

Wie Suchmaschinen mehrsprachige Inhalte indexieren (und wie AI dabei hilft)

Google Translate Alternativen: Wann Sie ein besseres Tool brauchen

Kostenlose Übersetzungssoftware 2026: Tools, Grenzen und wann sich ein Upgrade lohnt

Online-Übersetzungstools 2026: Kostenlose und kostenpflichtige Optionen im Vergleich

Mehr entdecken

Für Entwickler

Für Übersetzer

Für Produktteams

Alle Funktionen