PR

英日翻訳の機械学習が凄い!?ニューラル機械翻訳が半端なし

ニューラル機械翻訳 英日翻訳・ポストエディット

英日翻訳の機械翻訳化や自動翻訳化が急速に進歩しています。
翻訳業界を根本から変える勢いです。

現在、機械翻訳の主流はニューラル機械翻訳。
ニューラル機械翻訳は、人間の脳神経回路の情報伝達機能を模倣したもので、AIが情報を収集し、機械学習しながら適切な訳語を当てはめていきます。

各英単語に該当する日本語に変換する逐語訳ではなく、文章単位で訳出するため、とても自然な翻訳文となります。

本記事では、ニューラル機械翻訳など英日翻訳の機械翻訳の凄みに迫りたいと思います。

なお、機械翻訳には自動翻訳と翻訳支援に大別されますが、後者の翻訳支援ソフト(トラドスなど)は本質的に異なるので、今回は触れません。予めご理解ください。

英日翻訳の機械学習はどこまで凄いのか?ニューラル機械翻訳の実力

NMTの機械学習

ニューラル機械翻訳は、ニューラルネットワークを使った翻訳です。
では、ニューラルネットワークとは何でしょうか?

難しく書いても仕方が無いので、優しく書きたいと思います。

ニューラルネットワークは、多くある機械学習のうちの一つ。人間の脳は、神経細胞であるニューロンが刺激を受けて情報伝達をします。が、ニューラルネットワークは、この神経回路網をコンピュータプログラム(アルゴリズム)化したものです。

ニューラルネットワークを構成する人工的な神経細胞(人口ニューロン)は単純な構造をしています。しかし、多数組み合わせると、認知精度が格段に上がります。つまり賢くなります。
少ない情報ではなく、多くの情報を入力することで、精度の高い出力を可能にするのです。

ここで、ニューラルネットワークの中核をなすディープラーニング(深層学習)が登場します。従来の機械学習は、人間が識別方法を定義していましたが、ディープラーニングではAI(人工知能)が多くの学習データから認知出力します。

凄くないですか?
だからニューラル機械翻訳は、ディープラーニングを採用することで、従来の機械翻訳では精度の低かった英日翻訳の翻訳能力を著しく進化させました。

実際、一部の専門分野を除いて、意味を取るだけならニューラル機械翻訳で十分という意見もあります。
この先、さらに英日翻訳の機械学習が進化していけば、翻訳家という職業が無くなるかもしれませんね。

英日翻訳の機械翻訳の種類は?機械学習に優れているのは?

機械翻訳の種類と作業

機械翻訳の手法は、大きくわけて以下の3つです。

  • ルールベース機械翻訳(RBMT)
  • 統計的機械翻訳(SMT)
  • ニューラル機械翻訳(NMT)

統計的機械翻訳とニューラル機械翻訳は、コーパスベース方式。コーパスとは、テキストや発話を大量に集めてデータベース化したものです。コーパスベース方式は、大量のデータを基に機械翻訳します。

ルールベース機械翻訳(RBMT)は、もっとも原始的な機械翻訳。定義したルールと辞書に基づいて原文を分析し、翻訳します。訳出精度を上げるためには、膨大なルールを定義する必要があります。また、想定外の原文に対しては正確に訳出できないデメリットがありました。

次に登場したのが統計的機械翻訳(SMT)です。統計的機械翻訳は、学習データとなる大量の対訳コーパスを使って統計的に処理することで訳出します。機械学習の始まりと言えるでしょう。Google翻訳も2006年にSMTを採用しています。
ルールベースよりは精度が高いが、対訳コーパスを基にするため、文法が大きく異なる言語間で翻訳すると、かなり精度が落ちます。

そしてニューラル機械翻訳(NMT)が登場します。今の機械翻訳主流。ニューラルネットワークを使った翻訳方法です。機械学習のディープラーニングにいって、曖昧なニュアンスの文章にも対応できるようになりました。
画像内の文字も翻訳もできるようになったのは大きな進歩だと思います。

機械翻訳はスピードとコストダウンを可能になるため、今後はさらにに普及するでしょう。

英日翻訳ツールの比較|機械学習に差があるのか?

英日翻訳ツール

英日翻訳ツールは、無料で利用できるものが多くあります。試しにどのツールが優れているのか比較してみたいと思います。

機械学習にどこまで差があるのか気になりますよね。

原文は、パブリックドメイン(著作権が切れている)の文章を使います。

出典:The Strange Case of Dr. Jekyll and Mr. Hyde
著者:Robert Louis Stevenson
宝島の作家ですね。ジギル先生とハイド氏という非常に面白い作品です。

Two doors from one corner, on the left hand going east the line was broken by the entry of a court; and just at that point a certain sinister block of building thrust forward its gable on the street. It was two storeys high; showed no window, nothing but a door on the lower storey and a blind forehead of discoloured wall on the upper; and bore in every feature, the marks of prolonged and sordid negligence.

<The Strange Case of Dr. Jekyll and Mr. Hydeから抜粋>

Google 翻訳の翻訳文

片方の角から東に向かっている左側の2つのドアは、裁判所の入り口によって壊れていました。 そしてちょうどその時点で、建物のある不吉なブロックが通りの切妻を前に突き出しました。 それは2階建てでした。 窓はなく、下の階にはドアがあり、上の階には変色した壁の盲目の額しかありませんでした。 そして、すべての機能に退屈し、長期的でひどい過失の痕跡

DeepL翻訳の翻訳文

一つの角から2つのドア、東に向かって左手には、裁判所の入り口で線が途切れていた。それは2階建ての高さで、窓はなく、下の階のドアと上の階の変色した壁のブラインドの額だけを示した。

Microsoft Wordの翻訳文

一角から2つのドア、左手を東に行く2つのドアは、裁判所の入り口によってラインが壊れました。そしてちょうどその時点で、建物の特定の不吉なブロックが路上でその格言を前方に突き出しました。それは2階建ての高さで、窓はなく、下階のドアstoreyと上に落胆した壁の盲目の額しか見えず、すべての特徴、長引く、かつ退屈な過失の跡を示しました。

青空文庫の翻訳文

東へ向って行って左手の、一つの街かどから二軒目のところに、路地の入口があって、街並はくぎられていた。そしてちょうどそこに、気味の悪い一枚の建物が切妻きりづまを街路に突き出していた。その建物は二階建で、一階に戸口が一つあるだけ、二階は色のあせた壁だけで、窓は一つもなく、どこを見ても永いことよごれ放題にしてあった跡があった。

<出典:https://www.aozora.gr.jp/cards/000888/files/33205_26197.html >
佐々木直次郎訳

原文となる文章が古い上に難易度が高い文芸作品だったため、機械翻訳の精度がかなり落ちたと思います。おかげで、翻訳ツールによっていつも以上に品質の差が出ました。

それぞれの翻訳文を読んで比較してもらえば分かりますが、Google 翻訳以外は訳抜けが多く、意味不明な表現も多く見られました。
肝心のGoogle翻訳も、100円満点にはほど遠い品質です。進化したとはいえ、翻訳家の水準に達するにはまだまだ時間がかかりそうです。

なお、訳出するスピードについては、大差ありませんでした。

まとめ

英日翻訳の機械学習について記事を書きました。
現在、主流のニューラル機械翻訳は、昔の機械翻訳と比べればかなり進歩していますが、完璧とはほど遠い状態です。

しかし、文章によってはかなり精度が高くなっているため、翻訳文をちょっと修正すれば、そこそこ通用すると思います。

タイトルとURLをコピーしました