エンジニアリング//10 読了時間

翻訳における大規模言語モデル:LLMと従来のNMTの比較

Eray Gündoğmuş
共有

翻訳における大規模言語モデル:LLMと従来のNMTの比較

要点まとめ

  • GPT-4、Claude、GeminiなどのLLM(大規模言語モデル)は翻訳タスクを実行できますが、専用のNMT(ニューラル機械翻訳)エンジンとは根本的に異なります
  • LLMは文脈を考慮した翻訳、曖昧さの処理、スタイル指示への対応に優れており、これらは従来のNMTが苦手とする分野です
  • 専用NMTエンジン(Google Translate、DeepLなど)は、大量翻訳において高速・低コスト・高い一貫性を発揮します
  • LLMは、クリエイティブコンテンツ、マーケティングコピー、トーンやスタイルの調整が必要なコンテンツに特に有効です
  • 多くのチームにとって最も効果的なアプローチは、大量翻訳にはNMTを、高付加価値コンテンツにはLLMベースの改善を組み合わせることです

LLMが翻訳にアプローチする方法の違い

従来のNMTエンジンは、対訳コーパス(原文と訳文のペア)を使って学習します。ある言語が別の言語にどう対応するかの統計的パターンを学習します。

LLMは、多様なソースから収集された大量の多言語テキストで学習します。言語構造、意味、文脈をより深いレベルで理解します。翻訳を求められた際、単に言語間のパターンマッチを行うのではなく、コンテンツを理解した上でターゲット言語で再表現します。

この根本的な違いは、実用面で重要な影響をもたらします:

項目従来のNMTLLMベースの翻訳
学習データ対訳コーパス(原文 ↔ 訳文)一般的な多言語テキスト
コンテキストウィンドウ単一の文または段落数千トークン
スタイル制御限定的(用語集、敬語設定)指示追従型(プロンプト)
速度非常に高速(ミリ秒単位)低速(秒単位)
トークンあたりのコスト低い(100万文字あたり$10〜20)高い(100万トークンあたり$1〜15)
一貫性同一入力に対して高い呼び出しごとに異なる場合あり

LLMが優れている分野

文脈を考慮した翻訳

LLMはドキュメント全体や会話全体を処理でき、段落をまたいだ一貫性の維持や参照の理解が可能です。従来のNMTエンジンが「It was cool」を翻訳する場合、「cool」が気温を指すのか、肯定的な評価を指すのか判断できないことがあります。LLMはドキュメント全体を処理することで、正しい意味を推測できます。

スタイルとトーンの調整

LLMは以下のような指示に従うことができます:

  • 「このマーケティングコピーをフランス語に翻訳し、カジュアルでエネルギッシュなトーンを維持してください」
  • 「この法的文書をドイツ語のフォーマルな表現(Sie形式)で翻訳してください」
  • 「このUI文字列を子供向け教育アプリ用に翻訳してください — シンプルで親しみやすい言葉を使ってください」

曖昧さへの対応

「Open」のように文脈によって複数の訳が考えられる場合、LLMには追加のコンテキストを与えることができます:

以下のUIボタンラベルをドイツ語に翻訳してください。
コンテキスト:このボタンはファイルピッカーダイアログを開きます。
原文: "Open"

これにより、「Offen」(形容詞:開いている/利用可能な)ではなく「Öffnen」(動詞:開く)が出力されます。

クリエイティブ・マーケティングコンテンツ

トランスクリエーション(直訳ではなくメッセージを適応させること)が必要なコンテンツでは、LLMの方がより自然な結果を生み出します。

従来のNMTが優れている分野

速度とスループット

NMTエンジンはミリ秒単位で翻訳を処理します。LLMはリクエストごとに数秒を要します。

大規模運用時のコスト

大量翻訳ワークロードでは、NMTの方が大幅に安価です。100万文字の翻訳コストは、ほとんどのNMT APIで約$10〜20です。

決定論的な出力

同じ入力に対して、NMTエンジンは常に同じ出力を返します。

言語カバレッジ

主要なNMTエンジンは100〜200以上の言語をサポートしています。LLMは通常、リソースが豊富な20〜40言語で良好なパフォーマンスを発揮します。

実践的なユースケース

LLMベースの翻訳が適しているケース

  • マーケティング・クリエイティブコンテンツ:キャッチコピー、広告文、メールキャンペーン
  • 文脈依存のUI文字列:コンテキストなしでは曖昧な文字列
  • スタイル指定コンテンツ:特定のトーン、フォーマリティ、ブランドボイスが求められるコンテンツ
  • 少量・高品質ニーズ:特定のスタイル要件で数百文字列を翻訳する場合
  • 翻訳レビューと改善:LLMを使ってNMTの出力を改善・洗練する

NMTが適しているケース

  • 大量のUI文字列翻訳:数千のアプリケーション文字列
  • ドキュメント:ヘルプ記事、ナレッジベースコンテンツ
  • リアルタイム翻訳:チャット、ライブキャプション、インスタントメッセージ
  • TMSでの事前翻訳:人間の翻訳者向けの初稿提供
  • コスト重視のワークロード:翻訳予算がボリュームに対して限られている場合

NMTとLLMの組み合わせ

多くのチームにとって実用的なアプローチ:

  1. 初期翻訳にNMTを使用:高速・低コストで大部分のコンテンツをカバー
  2. 高付加価値の改善にLLMを使用:マーケティングコンテンツ、曖昧な文字列、スタイル調整
  3. 本番コンテンツには人間レビュー:リリース前の最終品質チェック
ソース文字列
     ↓
NMT事前翻訳(大量・高速・低コスト)
     ↓
LLM改善(特定の文字列:マーケティング、曖昧、スタイル重視)
     ↓
人間レビュー(すべての顧客向けコンテンツ)
     ↓
公開翻訳

品質比較

コンテンツタイプNMTの品質LLMの品質推奨
技術ドキュメント良好良好NMT(低コストで十分な品質)
UI文字列(コンテキスト付き)良好非常に良好曖昧な文字列にはLLM
マーケティングコピー普通非常に良好LLM
法律・規制文書良好良好どちらか + 人間レビュー
クリエイティブコンテンツ普通良好LLM + 人間によるクリエイティブレビュー

導入時の考慮事項

翻訳のためのプロンプトエンジニアリング

効果的なLLM翻訳には、適切に構造化されたプロンプトが必要です:

あなたはプロの翻訳者です。以下のテキストを英語からフランス語に翻訳してください。
要件:
- フォーマルな表現(tuではなくvous)を使用すること
- {name}や{count}などのプレースホルダーはそのまま保持すること
- ブランド名は翻訳しないこと
- 原文と同程度の長さで簡潔に翻訳すること
原文: "Welcome back, {name}! You have {count} unread messages."

レート制限とバッチ処理

  • 可能な限り複数の文字列を1つのリクエストにまとめる
  • 指数バックオフ付きのリトライロジックを実装する
  • 翻訳をキャッシュして、変更のないコンテンツの再翻訳を回避する

一貫性の管理

  • システムプロンプトに用語集を含める
  • 翻訳メモリ:同一または類似の文字列に対して過去の翻訳を再利用する
  • バリデーションスクリプト:製品用語が一貫して翻訳されているかチェックする

よくある質問

NMT統合をLLMに置き換えるべきですか?

ほとんどのチームにとって、答えはノーです。コストと速度の面で、大量翻訳にはNMTの方が優れた選択肢です。

LLMの翻訳品質がコスト増に見合うかどうか、どう評価すればよいですか?

並行比較テストを実施してください:代表的なコンテンツサンプルをNMTとLLMの両方で翻訳し、ネイティブスピーカーに品質を評価してもらいます。

LLMは大規模プロジェクト全体で用語の一貫性を維持できますか?

ネイティブには対応していません — LLMはAPI呼び出し間でメモリを持ちません。ただし、システムプロンプトに用語集を含める、承認済み翻訳のfew-shot例を使用する、用語コンプライアンスをチェックする後処理バリデーションを実装することで一貫性を確保できます。LLM統合型のTMSを使えば、これらを自動的に処理できます。

Comments

Loading comments...