İçindekiler
Makine Çevirisi Kalitesi: Yaygın Hatalar, Değerlendirme Yöntemleri ve Çıktıyı İyileştirme
Temel Çıkarımlar
- Makine çevirisi kalitesi; dil çifti, alan ve içerik türüne göre önemli ölçüde farklılık gösterir
- Yaygın MT hataları arasında halüsinasyonlar (uydurma içerik), kelimesi kelimesine çeviriler, terim tutarsızlığı ve cinsiyet/saygı düzeyi hataları yer alır
- Otomatik metrikler (BLEU, COMET, chrF) kabaca kalite tahmini sunar; ancak insan değerlendirmesi altın standart olmaya devam eder
- Makine çevirisi son düzenlemesi (MTPE), üretim içerikleri için standart iş akışıdır — MT hızını insan doğruluğuyla birleştirir
- MT kalitesini artırmak; daha iyi kaynak metin, özel sözlükler, alan adaptasyonu ve yapılandırılmış son düzenleme iş akışlarının bir arada kullanılmasını gerektirir
Yaygın Makine Çevirisi Hataları
MT sistemlerinin ürettiği hata türlerini anlamak, ekiplerin etkili inceleme iş akışları oluşturmasına yardımcı olur.
Halüsinasyonlar
MT modelleri, kaynak metinde bulunmayan içerikler üretebilir. Bu durum özellikle tehlikelidir; çünkü çıktı, dili bilmeyenlere akıcı ve doğal görünürken gerçek açıdan yanlış olabilir.
Örnek: Kaynak: "Kaydet'e tıkla" → MT çıktısı: "Değişikliklerinizi korumak ve uygulamadan çıkmak için Kaydet'e tıklayın" (uydurma ek anlam)
Halüsinasyonlar şu durumlarda daha sık görülür:
- Bağlamı sınırlı çok kısa dizeler
- Düşük kaynaklı dil çiftleri
- Kaynak dilde belirsiz içerikler
Kelimesi Kelimesine Çeviri
Hedef dilin doğal ifade kalıplarına uyum sağlamadan sözcük sözcük çeviri yapmak.
Örnek: İngilizce "It's raining cats and dogs" → Doğal Fransızca deyim olan "Il pleut des cordes" yerine kelimesi kelimesine çeviri.
Yazılım alanında kelimesi kelimesine çeviriler çoğunlukla teknik açıdan doğru ancak doğal olmayan arayüz metinleri üretir; bu da ürünün kötü yerelleştirilmiş hissi vermesine yol açar.
Terim Tutarsızlığı
MT motorları, açıkça sözlüklerle yapılandırılmadığı sürece dizeler arasında terim tutarlılığını koruyamaz. Aynı kaynak terim, farklı dizelerde farklı biçimlerde çevrilebilir.
Örnek: Aynı proje içinde "Dashboard" kelimesinin bir dizede "Kontrol Paneli", başka bir dizede "Yönetim Ekranı" olarak çevrilmesi.
Cinsiyet ve Saygı Düzeyi Hataları
MT sistemleri genellikle bir cinsiyet veya saygı düzeyini varsayılan olarak seçer ve bunu tutarsız biçimde uygular.
Örnek: Aynı uygulamanın farklı dizelerinde resmi ve samimi hitap biçimlerinin karışık kullanılması.
Bağlam Yanlış Yorumlama
Bağlamsız kısa dizeler özellikle hataya açıktır. İngilizce "Open" kelimesi şu anlamlara gelebilir:
- Fiil: "Dosyayı aç" (Almanca: "Öffnen")
- Sıfat: "Dosya açık" (Almanca: "Geöffnet")
- İsim: "Açık (durum)" (Almanca: "Offen")
MT sistemleri bağlam olmadan tahmin yapmak zorunda kalır ve sıklıkla yanlış tahmin eder.
Sayı ve Biçimlendirme Hataları
MT, sayıları, tarihleri, para birimlerini ve diğer biçimlendirilmiş içerikleri hatalı şekilde değiştirebilir:
- Para birimi simgelerini uygunsuz biçimde değiştirme
- Tarihleri yanlış yeniden biçimlendirme
- Teknik değerleri (sürüm numaraları, ölçümler) değiştirme
Değerlendirme Yöntemleri
Otomatik Metrikler
| Metrik | Neyi Ölçer | Güçlü Yönler | Sınırlamalar |
|---|---|---|---|
| BLEU | Referans çeviriyle n-gram örtüşmesi | Hızlı, yinelenebilir, yaygın kullanımlı | Geçerli alternatif çevirileri cezalandırır |
| COMET | Sinir ağı modelleriyle öğrenilmiş kalite tahmini | BLEU'ya kıyasla insan yargısıyla daha iyi korelasyon | Model indirmesi gerektirir, dile bağımlı |
| chrF | Karakter düzeyinde F-skoru | Morfolojik açıdan zengin dillerde iyi çalışır | BLEU'ya kıyasla daha az yorumlanabilir |
| TER | Referans çeviriye düzenleme mesafesi | Sezgisel (düşük = daha az düzenleme gerekir) | BLEU ile aynı referansa bağımlılık sınırlaması |
Önemli: Otomatik metrikler, referans çeviriler (insan tarafından çevrilmiş altın standartlar) gerektirir. Bunlar mutlak kaliteyi değil, bir referansa benzerliği ölçer. Referanstan stilistik olarak farklılaşan geçerli bir çeviri, tamamen doğru olsa bile daha düşük puan alacaktır.
İnsan Değerlendirmesi
İnsan değerlendirmesi en güvenilir yöntem olmayı sürdürür. Yaygın çerçeveler:
MQM (Multidimensional Quality Metrics): Hataları şu kategorilere göre sınıflandıran yapılandırılmış bir çerçeve:
- Doğruluk: Yanlış çeviri, ihmal, ekleme
- Akıcılık: Dilbilgisi, yazım, noktalama
- Terminoloji: Yanlış terim, tutarsız terminoloji
- Stil: Dil kaydı, saygı düzeyi, yerel kullanım kuralları
Her hata, önem derecesine (kritik, büyük, küçük) göre ağırlıklandırılır. Toplam ağırlıklı hata puanı bir kalite derecelendirmesi verir.
Doğrudan Değerlendirme: İnsan değerlendiriciler, çevirileri yeterlilik (anlamı aktarıyor mu?) ve akıcılık (doğal mı?) açısından sürekli bir ölçek üzerinde (0-100) puanlar.
Kalite Tahmini (Referanssız)
Kalite tahmini modelleri, insan referansı olmadan çeviri kalitesini tahmin eder. İnsan kalite yargıları üzerine eğitilirler ve şunları yapabilirler:
- Düşük kaliteli çevirileri inceleme için işaretleme
- Son düzenleme çabasını önceliklendirme
- TMS arayüzlerinde gerçek zamanlı kalite geri bildirimi sağlama
Makine Çevirisi Kalitesini İyileştirme
1. Çeviri Dostu Kaynak Metin Yazma
MT kalitesi, kaynak metin kalitesiyle başlar:
- Basit, açık cümleler kullanın: Karmaşık iç içe yan cümlelerden kaçının
- Belirsizlikten kaçının: "Right" (doğru mu yoksa yön mü?) — net olun
- Deyimleri ve günlük konuşma ifadelerini en aza indirin: "Heads up" → "Bildirim" veya "Uyarı"
- Dizeleri bağımsız tutun: Cümleleri birden fazla çeviri anahtarına bölmeyin
- Bağlam sağlayın: Çevirmenler için açıklamalar veya ekran görüntüleri ekleyin (bağlam duyarlı MT için de)
2. Özel Sözlükler Kullanma
Dil başına onaylı çevirileriyle birlikte ürüne özgü terimleri içeren bir sözlük oluşturarak tutarlı terminolojiyi zorunlu kılın. Çoğu TMS platformu ve MT API'si sözlük uygulamasını destekler.
3. Çeviri Belleğinden Yararlanma
Çeviri belleği, önceden onaylanmış çevirilerin birebir yeniden kullanılmasını sağlar. Yeni MT önerileri yalnızca TM'de bulunmayan içerikler için oluşturulur; böylece genel hata yüzeyi azalır.
4. Yapılandırılmış Son Düzenleme Uygulama
MTPE (Machine Translation Post-Editing) iş akışları iki düzeyde gerçekleşir:
- Hafif son düzenleme: Anlam değiştiren veya açıkça doğal olmayan hataları düzeltin. "Yeterince iyi" çevirileri kabul edin. Dahili içerikler veya düşük öncelikli diller için uygundur.
- Tam son düzenleme: MT çıktısını profesyonel insan çevirisi kalitesine ulaşacak şekilde düzenleyin. Birincil pazarlardaki müşteriye yönelik içerikler için uygundur.
Her içerik türü ve dil çifti için hangi düzeyin geçerli olduğunu tanımlayın.
5. MT Motorlarına Bağlam Sağlama
Mevcut olduğunda, kaynak dizelerle birlikte bağlamsal bilgi gönderin:
- Dosya/anahtar bağlamı: Dosya adı veya anahtar ön eki, MT'nin alanı çıkarsamasına yardımcı olur
- Önceki/sonraki dizeler: Çevreleyen dizeler tutarlılığa katkı sağlar
- Arayüz ekran görüntüleri: Görsel bağlam belirsizliği azaltır
- Dize açıklamaları: Bir dizenin ne işe yaradığına dair geliştirici notları
6. İzleme ve İterasyon
Zaman içinde MT kalitesini takip edin:
- Dil çifti başına ortalama son düzenleme mesafesini hesaplayın
- Sürekli sorun çıkaran içerik kalıplarını belirleyin
- Sık yapılan düzeltmelere göre sözlükleri güncelleyin
- Kalıcı kalite sorunları yaşanan dil çiftleri için alan adaptasyonunu değerlendirin
SSS
Üretim içerikleri için kabul edilebilir MT kalite düzeyi nedir?
İçerik türüne ve hedef kitleye bağlıdır. Müşteriye yönelik ürün arayüzü için MT çıktısı genellikle üretim kalitesine ulaşmak amacıyla tam son düzenleme gerektirir. Yardım belgeleri için hafif son düzenleme yeterli olabilir. Dahili iletişimler için ham MT kabul edilebilir olabilir. İçerik türüne göre kalite katmanları tanımlayın ve uygun inceleme düzeyini uygulayın.
BLEU skorları gerçek dünya kalitesine nasıl yansır?
BLEU skorları görelidir, mutlak değildir. 30 ve üzeri BLEU skoru genellikle anlaşılır çevirilere işaret ederken, 50 ve üzeri yüksek kaliteyi gösterir. Ancak bu rakamlar dil çiftine ve alana göre önemli ölçüde farklılık gösterir. BLEU, tek tek çeviriler hakkında mutlak kalite yargıları vermek için değil; sistemleri karşılaştırmak veya zaman içindeki kalite değişimlerini takip etmek için en iyi şekilde kullanılır.
Özel MT modeli eğitimine yatırım yapmalı mıyım?
Özel model eğitimi şu durumlarda değerlidir: (a) alanınızda genel MT'nin yetersiz kaldığı özel bir söz dağarcığı varsa, (b) yeterli paralel eğitim veriniz varsa (genellikle 10.000'den fazla cümle çifti) ve (c) ihtiyaç duyduğunuz dil çiftleri yatırımı haklı kılacak kadar yüksek hacimli ise. Çoğu ekip için özel model eğitimi gerekli hale gelmeden önce sözlükler ve çeviri belleği önemli kalite iyileştirmeleri sağlar.