Mühendislik/2 Mart 2026/10 dk okuma

Makine Çevirisi Kalitesi: Yaygın Hatalar, Değerlendirme Yöntemleri ve Çıktıyı İyileştirme

Eray Gündoğmuş

Paylaş

İçindekiler

Makine Çevirisi Kalitesi: Yaygın Hatalar, Değerlendirme Yöntemleri ve Çıktıyı İyileştirme

Temel Çıkarımlar

Makine çevirisi kalitesi; dil çifti, alan ve içerik türüne göre önemli ölçüde farklılık gösterir
Yaygın MT hataları arasında halüsinasyonlar (uydurma içerik), kelimesi kelimesine çeviriler, terim tutarsızlığı ve cinsiyet/saygı düzeyi hataları yer alır
Otomatik metrikler (BLEU, COMET, chrF) kabaca kalite tahmini sunar; ancak insan değerlendirmesi altın standart olmaya devam eder
Makine çevirisi son düzenlemesi (MTPE), üretim içerikleri için standart iş akışıdır — MT hızını insan doğruluğuyla birleştirir
MT kalitesini artırmak; daha iyi kaynak metin, özel sözlükler, alan adaptasyonu ve yapılandırılmış son düzenleme iş akışlarının bir arada kullanılmasını gerektirir

Yaygın Makine Çevirisi Hataları

MT sistemlerinin ürettiği hata türlerini anlamak, ekiplerin etkili inceleme iş akışları oluşturmasına yardımcı olur.

Halüsinasyonlar

MT modelleri, kaynak metinde bulunmayan içerikler üretebilir. Bu durum özellikle tehlikelidir; çünkü çıktı, dili bilmeyenlere akıcı ve doğal görünürken gerçek açıdan yanlış olabilir.

Örnek: Kaynak: "Kaydet'e tıkla" → MT çıktısı: "Değişikliklerinizi korumak ve uygulamadan çıkmak için Kaydet'e tıklayın" (uydurma ek anlam)

Halüsinasyonlar şu durumlarda daha sık görülür:

Bağlamı sınırlı çok kısa dizeler
Düşük kaynaklı dil çiftleri
Kaynak dilde belirsiz içerikler

Kelimesi Kelimesine Çeviri

Hedef dilin doğal ifade kalıplarına uyum sağlamadan sözcük sözcük çeviri yapmak.

Örnek: İngilizce "It's raining cats and dogs" → Doğal Fransızca deyim olan "Il pleut des cordes" yerine kelimesi kelimesine çeviri.

Yazılım alanında kelimesi kelimesine çeviriler çoğunlukla teknik açıdan doğru ancak doğal olmayan arayüz metinleri üretir; bu da ürünün kötü yerelleştirilmiş hissi vermesine yol açar.

Terim Tutarsızlığı

MT motorları, açıkça sözlüklerle yapılandırılmadığı sürece dizeler arasında terim tutarlılığını koruyamaz. Aynı kaynak terim, farklı dizelerde farklı biçimlerde çevrilebilir.

Örnek: Aynı proje içinde "Dashboard" kelimesinin bir dizede "Kontrol Paneli", başka bir dizede "Yönetim Ekranı" olarak çevrilmesi.

Cinsiyet ve Saygı Düzeyi Hataları

MT sistemleri genellikle bir cinsiyet veya saygı düzeyini varsayılan olarak seçer ve bunu tutarsız biçimde uygular.

Örnek: Aynı uygulamanın farklı dizelerinde resmi ve samimi hitap biçimlerinin karışık kullanılması.

Bağlam Yanlış Yorumlama

Bağlamsız kısa dizeler özellikle hataya açıktır. İngilizce "Open" kelimesi şu anlamlara gelebilir:

Fiil: "Dosyayı aç" (Almanca: "Öffnen")
Sıfat: "Dosya açık" (Almanca: "Geöffnet")
İsim: "Açık (durum)" (Almanca: "Offen")

MT sistemleri bağlam olmadan tahmin yapmak zorunda kalır ve sıklıkla yanlış tahmin eder.

Sayı ve Biçimlendirme Hataları

MT, sayıları, tarihleri, para birimlerini ve diğer biçimlendirilmiş içerikleri hatalı şekilde değiştirebilir:

Para birimi simgelerini uygunsuz biçimde değiştirme
Tarihleri yanlış yeniden biçimlendirme
Teknik değerleri (sürüm numaraları, ölçümler) değiştirme

Değerlendirme Yöntemleri

Otomatik Metrikler

Metrik	Neyi Ölçer	Güçlü Yönler	Sınırlamalar
BLEU	Referans çeviriyle n-gram örtüşmesi	Hızlı, yinelenebilir, yaygın kullanımlı	Geçerli alternatif çevirileri cezalandırır
COMET	Sinir ağı modelleriyle öğrenilmiş kalite tahmini	BLEU'ya kıyasla insan yargısıyla daha iyi korelasyon	Model indirmesi gerektirir, dile bağımlı
chrF	Karakter düzeyinde F-skoru	Morfolojik açıdan zengin dillerde iyi çalışır	BLEU'ya kıyasla daha az yorumlanabilir
TER	Referans çeviriye düzenleme mesafesi	Sezgisel (düşük = daha az düzenleme gerekir)	BLEU ile aynı referansa bağımlılık sınırlaması

Önemli: Otomatik metrikler, referans çeviriler (insan tarafından çevrilmiş altın standartlar) gerektirir. Bunlar mutlak kaliteyi değil, bir referansa benzerliği ölçer. Referanstan stilistik olarak farklılaşan geçerli bir çeviri, tamamen doğru olsa bile daha düşük puan alacaktır.

İnsan Değerlendirmesi

İnsan değerlendirmesi en güvenilir yöntem olmayı sürdürür. Yaygın çerçeveler:

MQM (Multidimensional Quality Metrics): Hataları şu kategorilere göre sınıflandıran yapılandırılmış bir çerçeve:

Doğruluk: Yanlış çeviri, ihmal, ekleme
Akıcılık: Dilbilgisi, yazım, noktalama
Terminoloji: Yanlış terim, tutarsız terminoloji
Stil: Dil kaydı, saygı düzeyi, yerel kullanım kuralları

Her hata, önem derecesine (kritik, büyük, küçük) göre ağırlıklandırılır. Toplam ağırlıklı hata puanı bir kalite derecelendirmesi verir.

Doğrudan Değerlendirme: İnsan değerlendiriciler, çevirileri yeterlilik (anlamı aktarıyor mu?) ve akıcılık (doğal mı?) açısından sürekli bir ölçek üzerinde (0-100) puanlar.

Kalite Tahmini (Referanssız)

Kalite tahmini modelleri, insan referansı olmadan çeviri kalitesini tahmin eder. İnsan kalite yargıları üzerine eğitilirler ve şunları yapabilirler:

Düşük kaliteli çevirileri inceleme için işaretleme
Son düzenleme çabasını önceliklendirme
TMS arayüzlerinde gerçek zamanlı kalite geri bildirimi sağlama

Makine Çevirisi Kalitesini İyileştirme

1. Çeviri Dostu Kaynak Metin Yazma

MT kalitesi, kaynak metin kalitesiyle başlar:

Basit, açık cümleler kullanın: Karmaşık iç içe yan cümlelerden kaçının
Belirsizlikten kaçının: "Right" (doğru mu yoksa yön mü?) — net olun
Deyimleri ve günlük konuşma ifadelerini en aza indirin: "Heads up" → "Bildirim" veya "Uyarı"
Dizeleri bağımsız tutun: Cümleleri birden fazla çeviri anahtarına bölmeyin
Bağlam sağlayın: Çevirmenler için açıklamalar veya ekran görüntüleri ekleyin (bağlam duyarlı MT için de)

2. Özel Sözlükler Kullanma

Dil başına onaylı çevirileriyle birlikte ürüne özgü terimleri içeren bir sözlük oluşturarak tutarlı terminolojiyi zorunlu kılın. Çoğu TMS platformu ve MT API'si sözlük uygulamasını destekler.

3. Çeviri Belleğinden Yararlanma

Çeviri belleği, önceden onaylanmış çevirilerin birebir yeniden kullanılmasını sağlar. Yeni MT önerileri yalnızca TM'de bulunmayan içerikler için oluşturulur; böylece genel hata yüzeyi azalır.

4. Yapılandırılmış Son Düzenleme Uygulama

MTPE (Machine Translation Post-Editing) iş akışları iki düzeyde gerçekleşir:

Hafif son düzenleme: Anlam değiştiren veya açıkça doğal olmayan hataları düzeltin. "Yeterince iyi" çevirileri kabul edin. Dahili içerikler veya düşük öncelikli diller için uygundur.
Tam son düzenleme: MT çıktısını profesyonel insan çevirisi kalitesine ulaşacak şekilde düzenleyin. Birincil pazarlardaki müşteriye yönelik içerikler için uygundur.

Her içerik türü ve dil çifti için hangi düzeyin geçerli olduğunu tanımlayın.

5. MT Motorlarına Bağlam Sağlama

Mevcut olduğunda, kaynak dizelerle birlikte bağlamsal bilgi gönderin:

Dosya/anahtar bağlamı: Dosya adı veya anahtar ön eki, MT'nin alanı çıkarsamasına yardımcı olur
Önceki/sonraki dizeler: Çevreleyen dizeler tutarlılığa katkı sağlar
Arayüz ekran görüntüleri: Görsel bağlam belirsizliği azaltır
Dize açıklamaları: Bir dizenin ne işe yaradığına dair geliştirici notları

6. İzleme ve İterasyon

Zaman içinde MT kalitesini takip edin:

Dil çifti başına ortalama son düzenleme mesafesini hesaplayın
Sürekli sorun çıkaran içerik kalıplarını belirleyin
Sık yapılan düzeltmelere göre sözlükleri güncelleyin
Kalıcı kalite sorunları yaşanan dil çiftleri için alan adaptasyonunu değerlendirin

SSS

Üretim içerikleri için kabul edilebilir MT kalite düzeyi nedir?

İçerik türüne ve hedef kitleye bağlıdır. Müşteriye yönelik ürün arayüzü için MT çıktısı genellikle üretim kalitesine ulaşmak amacıyla tam son düzenleme gerektirir. Yardım belgeleri için hafif son düzenleme yeterli olabilir. Dahili iletişimler için ham MT kabul edilebilir olabilir. İçerik türüne göre kalite katmanları tanımlayın ve uygun inceleme düzeyini uygulayın.

BLEU skorları gerçek dünya kalitesine nasıl yansır?

BLEU skorları görelidir, mutlak değildir. 30 ve üzeri BLEU skoru genellikle anlaşılır çevirilere işaret ederken, 50 ve üzeri yüksek kaliteyi gösterir. Ancak bu rakamlar dil çiftine ve alana göre önemli ölçüde farklılık gösterir. BLEU, tek tek çeviriler hakkında mutlak kalite yargıları vermek için değil; sistemleri karşılaştırmak veya zaman içindeki kalite değişimlerini takip etmek için en iyi şekilde kullanılır.

Özel MT modeli eğitimine yatırım yapmalı mıyım?

Özel model eğitimi şu durumlarda değerlidir: (a) alanınızda genel MT'nin yetersiz kaldığı özel bir söz dağarcığı varsa, (b) yeterli paralel eğitim veriniz varsa (genellikle 10.000'den fazla cümle çifti) ve (c) ihtiyaç duyduğunuz dil çiftleri yatırımı haklı kılacak kadar yüksek hacimli ise. Çoğu ekip için özel model eğitimi gerekli hale gelmeden önce sözlükler ve çeviri belleği önemli kalite iyileştirmeleri sağlar.

Comments

Loading comments...

İlgili Yazılar

Mühendislik12m

Makine Çevirisi Kalitesi: Yaygın Hatalar, Değerlendirme Yöntemleri ve Çıktıyı İyileştirme

Makine Çevirisi Kalitesi: Yaygın Hatalar, Değerlendirme Yöntemleri ve Çıktıyı İyileştirme

Temel Çıkarımlar

Yaygın Makine Çevirisi Hataları

Halüsinasyonlar

Kelimesi Kelimesine Çeviri

Terim Tutarsızlığı

Cinsiyet ve Saygı Düzeyi Hataları

Bağlam Yanlış Yorumlama

Sayı ve Biçimlendirme Hataları

Değerlendirme Yöntemleri

Otomatik Metrikler

İnsan Değerlendirmesi

Kalite Tahmini (Referanssız)

Makine Çevirisi Kalitesini İyileştirme

1. Çeviri Dostu Kaynak Metin Yazma

2. Özel Sözlükler Kullanma

3. Çeviri Belleğinden Yararlanma

4. Yapılandırılmış Son Düzenleme Uygulama

5. MT Motorlarına Bağlam Sağlama

6. İzleme ve İterasyon

SSS

Üretim içerikleri için kabul edilebilir MT kalite düzeyi nedir?

BLEU skorları gerçek dünya kalitesine nasıl yansır?

Özel MT modeli eğitimine yatırım yapmalı mıyım?

Comments

İlgili Yazılar

Büyük Çeviri Dosyalarını Bölme: Namespace Bazlı Yükleme ile Daha Hızlı Uygulamalar

Geliştiriciler İçin Online Çeviri Araçları: Google Translate'in Ötesinde

Yapay Zeka Destekli Çeviri İş Akışları: Machine Translation'dan Post-Editing'e

MCP for Localization: How AI Agents Can Manage Your Translations

Daha Fazlasını Keşfedin

Geliştiriciler İçin

Çevirmenler İçin

Ürün Ekipleri İçin

Tüm Özellikler