İçindekiler
Çeviri Kalite Metrikleri: Nasıl Ölçülür ve İyileştirilir
Çeviride "kalite" tanımlanması ve ölçülmesi son derece güç bir kavramdır. Bir çeviri doğru ama tutuk olabilir. Akıcı ama sadakatsiz. Terminolojik açıdan doğru ama kültürel olarak duyarsız. Üstelik bir teknik kılavuz için "yüksek kalite" sayılan şey, bir pazarlama kampanyası için kalite sayılan şeyden temelden farklıdır.
Tüm bu karmaşıklığa karşın, çeviri kalitesini ölçmek büyük ölçekte yerelleştirme programı yürüten her kuruluş için zorunludur. Metrikler olmadan kalite sorunlarını tespit edemez, tedarikçi ilişkilerini iyileştiremez, araç kararlarını veriye dayalı biçimde alamaz ya da paydaşlara yatırım getirisini kanıtlayamazsınız.
Bu kılavuz, çeviri kalitesini ölçmeye yönelik başlıca çerçeveleri, araçları ve yaklaşımları ele almakta; ayrıca bu ölçümlerin sürekli iyileştirmeyi nasıl yönlendireceğini açıklamaktadır.
Kalite Ölçümü Neden Önemlidir?
Çeviri kalitesini sistematik biçimde ölçmeyen kuruluşlar, kalite sorunlarını genellikle şu yollarla keşfeder:
- Kafa karıştırıcı veya hatalı çevirilerden kaynaklanan müşteri şikâyetleri
- İngilizce dışındaki pazarlardan gelen destek talepleri
- Yanlış çevrilmiş uyumluluk içeriklerinden doğan hukuki sorunlar
- Yerelleştirilmiş pazarlarda başarısız ürün lansmanları
- İçerik yayımlandıktan sonra yapılan pahalı yeniden çalışmalar
Proaktif kalite ölçümü sorunları daha erken, daha ucuza çözülecekleri aşamada yakalar. Aynı zamanda tedarikçi ilişkilerinde hesap verebilirlik oluşturur ve MT araçları, çeviri tedarikçileri ile iş akışı değişikliklerinin nesnel biçimde karşılaştırılmasına olanak tanır.
Kalite Değerlendirme Çerçevelerine Genel Bakış
MQM: Multidimensional Quality Metrics
MQM (Multidimensional Quality Metrics), profesyonel yerelleştirme sektöründe en kapsamlı ve yaygın benimsenen çerçevedir. QTLaunchPad projesi tarafından geliştirilen ve ASTM International tarafından F3131 standardı olarak kabul edilen MQM, çeviri hata türlerinin hiyerarşik bir sınıflandırmasını sunar.
MQM hata kategorileri (üst düzey):
| Kategori | Açıklama |
|---|---|
| Accuracy | Çeviri, kaynağı sadakatle yansıtmıyor |
| Fluency | Çeviri, hedef dilde doğal değil |
| Terminology | Terimler onaylı sözlüğe veya alan sözleşmelerine uymuyor |
| Style | Çeviri, üslup yönergelerini ihlal ediyor |
| Locale convention | Sayılar, tarihler, adresler yerel ayar için yanlış biçimlendirilmiş |
| Verity | Çevirideki iddialar olgusal açıdan yanlış |
Her kategorinin alt kategorileri vardır. Örneğin Accuracy şunları içerir: yanlış çeviri, çıkarma, ekleme, çevrilmemiş içerik ve yapısal hatalar.
MQM puanlama: Her hata tür ve önem derecesine göre (kritik, majör, minör) sınıflandırılır. Ağırlıklı puan şu şekilde hesaplanır:
MQM score = (kritik × 25 + majör × 5 + minör × 1) / kelime sayısı × 1000
Düşük puan daha iyidir. Sektör kıyaslamaları değişmekle birlikte yaygın eşikler şöyledir:
- < 1,0: Mükemmel kalite
- 1,0–3,0: Kabul edilebilir kalite
- 3,0–5,0: İyileştirme gerekiyor
5,0: Kabul edilemez kalite
LISA QA Modeli
LISA (Localization Industry Standards Association) QA modeli, MQM'den önce gelir ve daha basittir. Hataları şu şekilde sınıflandırır:
- Yanlış çeviri
- Accuracy (doğruluk)
- Terminology (terminoloji)
- Dil (dilbilgisi, yazım, noktalama)
- Style (üslup)
- Ülke/yerel ayar standardı
- Biçimlendirme
LISA QA, özellikle eski kurumsal yerelleştirme programlarında hâlâ yaygın biçimde kullanılmaktadır. MQM kadar ayrıntılı olmasa da uygulanması daha kolaydır.
SAE J2450
Otomotiv sektörü tarafından geliştirilen basitleştirilmiş bir hata sınıflandırması. Beş hata türü vardır: yanlış terim, sözdizimsel hata, çıkarma, sözcük yapısı hatası, yazım/noktalama. Otomotiv ve ilgili sektörlerde kullanılır.
TAUS Dynamic Quality Framework (DQF)
TAUS (Translation Automation User Society) DQF, büyük ölçekte kullanım için tasarlanmış basitleştirilmiş kalite değerlendirme araçları sunar. Şunları içerir:
- Yeterlilik ölçeği (1-4): Çeviri, kaynağın anlamını aktarıyor mu?
- Akıcılık ölçeği (1-4): Çevirideki dil ne kadar akıcı?
DQF araçları başlıca CAT araçlarında ve TMS platformlarında mevcut olup yüksek hacimli değerlendirmeler için pratik bir çözüm sunar.
Otomatik Kalite Metrikleri
İnsan değerlendirmesi altın standarttır; ancak milyonlarca kelimeye ölçeklenemez. Otomatik metrikler, büyük ölçekte insan yargısının yerine geçen göstergeler olarak işlev görür.
BLEU (Bilingual Evaluation Understudy)
BLEU, bir MT çıktısı (veya çevrilmiş metin) ile bir ya da daha fazla insan referans çevirisi arasındaki örtüşmeyi ölçer. N-gram hassasiyetini (çevirideki kaç kelime dizisinin referanslarda geçtiğini) ve çok kısa çeviriler için kısalık cezasını hesaplar.
Yorumlama: BLEU skorları 0–100 arasında değişir. Yüksek daha iyidir. Ancak BLEU, segment düzeyinde insan yargılarıyla zayıf korelasyon gösterir; yalnızca sistemleri karşılaştırmak için kullanılan bir külliyat düzeyi metriktir, bireysel çevirileri değerlendirmek için uygun değildir.
Kullanım alanı: MT motorlarını karşılaştırma veya motor yeniden eğitiminden sonra iyileşmeyi ölçme. Bireysel segment kalite güvencesi için uygun değildir.
COMET (Crosslingual Optimized Metric for Evaluation of Translation)
COMET, kalite puanlarını tahmin etmek için insan kalite yargıları üzerinde eğitilmiş bir sinir ağı kullanır. Özellikle segment düzeyinde, insan değerlendirmeleriyle BLEU'ya kıyasla çok daha iyi korelasyon gösterir.
Kullanım alanı: MT kalitesini değerlendirme, motorları karşılaştırma, düzenleme sonrası çabayı tahmin etme. Üretim MT kalite tahmini süreçlerinde giderek daha fazla kullanılmaktadır.
TER (Translation Edit Rate)
TER, MT çıktısını referans çeviriye dönüştürmek için gereken düzenleme sayısını ölçer. Düşük TER = daha az düzenleme gerekiyor = daha iyi kalite.
Kullanım alanı: Düzenleme sonrası çabayı tahmin etme. Segmentleri yönlendirmek için kullanılabilir: düşük TER'li segmentler düzenleme sonrasına, yüksek TER'li segmentler sıfırdan insan çevirisine.
ChrF (Character F-score)
ChrF, kelime düzeyi yerine karakter düzeyinde çalışır. Kelime düzeyi eşleştirmenin farklı çekimsel biçimleri kullanan doğru çevirileri kaçırdığı, biçimsel açıdan zengin diller (Almanca, Türkçe, Fince) için BLEU'dan daha iyi performans gösterir.
Dilbilimsel Kalite Güvencesi (LQA) Süreci
Otomatik metrikler bazı hataları yakalar; ancak pek çok kalite boyutunu, özellikle üslubu, kültürel uygunluğu ve referans sözlükte yer almayan terminolojiyi gözden kaçırır. LQA, otomatik metriklerin insanla tamamlayıcısıdır.
LQA Programı Tasarımı
Örnekleme stratejisi: Her çevrilmiş kelimeyi değerlendirmek mümkün değildir. Örnekleme yaklaşımınızı belirleyin:
- Rastgele örnekleme: Rastgele seçilmiş tüm çevrilmiş içeriğin %X'ini değerlendirin
- Riske dayalı örnekleme: Yüksek görünürlüklü veya yüksek riskli içerik (hukuki, tıbbi, pazarlama) için daha yüksek örnekleme oranları
- Tabakalı örnekleme: İçerik türleri, dil çiftleri ve çevirmenler/tedarikçiler genelinde temsili sağlayın
Yaygın bir örnekleme oranı, kritik içerik türleri için %100 değerlendirmeyle birlikte kelime hacminin %5-10'udur.
Değerlendirici nitelikleri: LQA değerlendiricileri şu özelliklere sahip olmalıdır:
- Hedef dilin anadili konuşucusu
- Alan uzmanı (uzmanlaşmış içerik için)
- Belirli hata sınıflandırması ve puanlama metodolojisi konusunda eğitimli
- İçeriği çeviren kişi ile aynı kişi olmamalı
Kalibrasyon: LQA'ya başlamadan önce, birden fazla değerlendirici aynı örneği puanlayıp sonuçları karşılaştırarak değerlendiricileri kalibre edin. Çözüme kavuşturulmayan anlaşmazlıklar kalibrasyon tartışmalarına dönüşür. Periyodik yeniden kalibrasyon, yönergeler geliştikçe değerlendiricilerin uyumunu korur.
LQA Rapor Yapısı
Kullanışlı bir LQA raporu şunları içerir:
- Genel kalite puanı ve tür ile önem derecesine göre hata dağılımı
- En sık görülen hata türleri ve sıklığı
- Düzeltmelerle birlikte her hata türünden örnekler
- Trend verileri (kalite iyileşiyor mu yoksa kötüleşiyor mu?)
- Çevirmen/tedarikçi için uygulanabilir öneriler
Büyük Ölçekte Kalite Ölçümü: İş Metrikleri
Dilbilimsel kalite metrikleri çevirinin kendisini ölçer. İş metrikleri ise çeviri kalitesinin kullanıcı davranışı ve iş sonuçları üzerindeki etkisini ölçer.
Dile Göre Müşteri Destek Hacmi
Çeviri kalitesi düşükse İngilizce dışındaki dil kullanıcıları daha fazla destek talebi oluşturur. Kullanıcı nüfusuna göre normalleştirilmiş, dil başına destek talebi hacmini takip edin. Belirli dillerde sürekli yüksek oranlar, kalite veya yerelleştirme eksikliklerine işaret eder.
Yerel Ayara Göre Dönüşüm Oranı
E-ticaret, SaaS veya uygulama indirmeleri için dönüşüm oranlarını yerel ayara göre takip edin. Belirli yerel ayarlardaki önemli düşük performans genellikle çeviri kalitesi sorunlarıyla ilişkilidir (ancak UX, kültürel uyum veya fiyatlandırma faktörleri de devreye girebilir; diğer verilerle üçgenleme yapın).
Dile Göre Kullanıcı Elde Tutma
30 günlük, 90 günlük ve yıllık elde tutma oranlarını kullanıcı diline göre takip edin. Zayıf yerelleştirme kalitesi, anında şikâyet yerine kullanıcı kaybı olarak kendini gösterebilir.
Dile Göre Uygulama Mağazası Puanları ve İncelemeleri
Uygulama mağazası puanlarını dile göre ayrıştırılmış biçimde izleyin. Niteliksel inceleme madenciliği (ilginç biçimde MT kullanarak diğer dillerdeki incelemeleri okuma), belirli kalite şikâyetlerini gün yüzüne çıkarabilir.
Terminoloji Tutarlılığı Puanı
Çevrilmiş içerikte doğru uygulanan onaylı sözlük terimlerinin yüzdesini takip edin. TMS'nizdeki veya kalite güvencesi aracınızdaki otomatik sözlük denetimi, tüm içerik genelinde bu metriği oluşturabilir.
Kalite Standartları ve SLA'lar Belirleme
Kalite metrikleri, yalnızca standartlara ve hesap verebilirliğe bağlıysa yararlıdır. Çeviri tedarikçileriyle çalışırken:
İçerik türüne göre kalite katmanları tanımlayın:
- Katman 1 (kritik): Hukuki, uyumluluk, ürün arayüzü → MQM < 1,0
- Katman 2 (müşteriye yönelik): Pazarlama, yardım içeriği → MQM < 2,5
- Katman 3 (dahili/düşük riskli): Dahili belgeler, taslaklar → MQM < 5,0
LQA geri bildirim döngüleri oluşturun: LQA sonuçlarını tedarikçilerle paylaşın. Tedarikçilerden hata örüntülerini analiz etmelerini ve kalite iyileştirme planları sunmalarını talep edin. Zaman içindeki iyileşmeyi takip edin.
Ceza ve iyileştirme maddeleri: Kritik içerik için sözleşmeye iyileştirme gereksinimleri (kalite eşiğini geçemeyen içeriklerin çevirmen tarafından ücretsiz olarak yeniden yapılması) ve sistematik kalite başarısızlıkları için ceza maddeleri ekleyin.
TMS platformlarının kalite takibini ve tedarikçi yönetimini nasıl desteklediğini öğrenmek için çeviri yönetim sistemleri sayfasına bakın.
Kalite Verileriyle Sürekli İyileştirme
Kalite ölçümü, sürekli iyileştirmeyi yönlendirdiğinde en değerli hâlini alır:
Kök neden analizi: Kalite puanları düşük olduğunda hataları kaynağına kadar izleyin:
- Kaynak içerik kalitesi (belirsiz, kötü yazılmış kaynak → zayıf çeviri)
- Yetersiz bağlam (çevirmenin gerekli referans materyallerine sahip olmaması)
- Terminoloji eksiklikleri (terim sözlükte yok → tutarsız çeviri)
- Çevirmen beceri açığı (belirli bir çevirmen/tedarikçiden gelen belirli hata türü)
- Süreç başarısızlığı (yetersiz süre, yetersiz inceleme adımı)
Geri bildirim döngüleri: Hata analizini çevirmenlere ve düzenleme sonrası editörlerine, belirli ve uygulanabilir geri bildirimlerle birlikte iletin. "Kalite düşüktü" gibi genel geri bildirimler gelecekteki çıktıyı iyileştirmez.
Sözlük güncellemeleri: Her terminoloji hatası, sözlüğün güncellenmesi veya daha iyi dağıtılması gerektiğinin bir sinyalidir. Çevirmenlerin sözlük incelemesi için yeni terminoloji işaretleyebileceği bir süreç oluşturun. Çeviri sözlük yönetimi hakkında daha fazla bilgi edinin.
Süreç denemeleri: Süreç değişikliklerini değerlendirmek için kalite metriklerini kullanın. İkinci bir inceleme adımı eklemek kaliteyi iyileştirdi mi? MT motoru değiştirmek düzenleme sonrası çabayı azalttı mı? Kalite verileri bu soruları nesnel biçimde yanıtlar.
Eğitim ihtiyaçlarının belirlenmesi: Çevirmenler genelinde belirli hata türlerinin örüntüleri çoğunlukla eğitim ihtiyaçlarına işaret eder. Birden fazla çevirmen aynı türde hata yapıyorsa sorun, bireysel çevirmen becerisinden değil belirsiz yönergelerden kaynaklanıyor olabilir.
Farklı Çeviri Yaklaşımları için Kalite Yönetimi
Kalite standartları ve ölçüm yaklaşımları çeviri yöntemine göre farklılık gösterir:
İnsan çevirisi: LQA örneklerine tam MQM değerlendirmesi uygulayın. Yüksek puanlar bekleyin; ancak terminoloji tutarsızlığına ve üslup sapmalarına dikkat edin.
MT + düzenleme sonrası: Hem MT ham kalitesini (otomatik metrikler) hem de düzenleme sonrası kaliteyi (LQA) takip edin. Ayrıca düzenleme sonrası çabayı ölçün. İş akışı ayrıntıları için makine çevirisi düzenleme sonrası sayfasına bakın.
Yapay zeka çevirisi: İçerik türüne göre kalite beklentileri ve yapay zeka çeviri kalitesini etkin biçimde ölçme yöntemleri için yapay zeka çevirisi ile insan çevirisi karşılaştırması sayfasına bakın.
Uygulamanızı better-i18n ile küresel pazara taşıyın
better-i18n; yapay zeka destekli çeviriler, git tabanlı iş akışları ve küresel CDN teslimatını tek bir geliştirici odaklı platformda bir araya getirir. Elektronik tablolarla uğraşmayı bırakın ve her dilde ürün göndermeye başlayın.
Ücretsiz başlayın → · Özellikleri keşfedin · Dokümanları okuyun