機械翻訳
出典: フリー百科事典『ウィキペディア(Wikipedia)』
機械翻訳(きかいほんやく)とは、ある自然言語を別の自然言語へ機械的に変換する技術をいう。機械翻訳の概念自体はコンピュータの存在以前より存在するため、機械翻訳と翻訳ソフトは同義ではないが、現在ではほとんど翻訳ソフトとして実装される。例として、英語の文章を入力するとそれを翻訳した日本語の文章を出力する英和翻訳ソフトウエアなどがある。自動翻訳ともいう。近年、統計や人工知能とコンピュータ処理能力の進歩により急速に成長している分野である。目次 |
機械翻訳の原理
現在広く使われている機械翻訳の原理は次のとおりである。言語 X で書かれている文を言語 Y に翻訳する場合:
例として、英語から日本語への翻訳を考える。以下のような原文が与えられたとしよう。
"I have a pen."
この文を解析して得られる構文木は次のようになる:
ここで、以下のような辞書を使って英語の単語を日本語の単語に置き換える:
英語 | 日本語 |
---|---|
I | 私 |
have | 持っている |
a | - (空白) |
pen | ペン |
構文木は次のようになる:
(S (NP (pron 私)) (VP (verb 持っている) (NP (det -) (noun ペン))))
しかしまだ語順が正しくないし、助詞もない。ここで構文木に対して以下のような規則を適用して変換をおこなう:
- "S → NP VP" というノードがあれば、それを "S → NP は VP" に変換せよ。
- "VP → verb NP" というノードがあれば、それを "VP → NP を verb" に変換せよ。
すると変換された木はこのようになっている:
(S (NP (pron 私)) は (VP (NP (det -) (noun ペン)) を (verb 持っている)))
ここから、以下のような翻訳文を生成できる:
"私はペンを持っている。"
これは非常に単純な例である。実際には英語の have は複数の語義をもつので、語義の曖昧性解消をしなければ単純に「have → 持っている」という変換をすることはできない。また、モダリティの考慮や、照応の解決、敬語の扱い、自然な言いまわしの文の生成など実用的な翻訳ソフトウエアをつくるためには多くのことを考慮に入れる必要がある。
統計翻訳の原理
計算機の発達によって1990年代以降研究が盛んになっているのは統計的な手法を用いた機械翻訳である。これは音声認識の分野で用いられていた雑音チャネルモデルを応用したもので、元言語(翻訳元の言語) f は目的言語(翻訳後の言語) e が雑音のある通信路を通る間に変化してしまったものであると捉え、翻訳とは元言語から目的言語への復号であると考える。この時、復号誤りが最も小さくなる翻訳結果 は以下の式を満たすことによって得られる。
しかし、このままではモデル化が難しいため、ベイズの定理を用いて以下のように変形する。
よって
ここで をモデル化したものを言語モデル、 をモデル化したものを翻訳モデルと呼び、言語モデルは言語としての確からしさを、翻訳モデルは翻訳の確からしさをモデル化していると言える。そして、これらのモデルから翻訳候補を生成し、最も確率の高い翻訳結果を探索する処理系をデコーダと呼ぶ。
翻訳モデルのみでは目的言語として正しくない文となってしまうため、言語モデルによって目的言語として正しくない文を取り除けると考えられる。また、言語モデルについての研究は音声認識などの分野において既に研究が行われており、その知見を生かすこともできる。
実際にはパラレルコーパスと呼ばれる文同士の対応がついた2言語間のコーパスを用いてこの確率を推定することになる。
機械翻訳の困難性
機械による翻訳の困難さのひとつは、それが文法や単語の意味の解析といった論理的処理だけでは解決しない点にもある。たとえば次の英語の文は、
Time flies like an arrow.
普通はこれを「時は矢のように飛び去る」(光陰矢のごとし)と解釈するが、これを「時間蠅は矢を好む」と訳することも可能で、文法的にも破綻がない。当然、普通は後者は間違いなのであるが、後者を捨て去る判断ができるためには、人には時が素早く過ぎると感じられることがあること、矢は速く飛ぶこと、時間蠅という生き物は存在しなさそうなこと、虫が矢を好むことなどありそうにないこと等の知識が必要である。極論すれば、正しい翻訳を行うためにはその文がかかわる世界そのものに関するあらゆる知識や感覚が必要になる。また、ありそうにない時間蠅も、たとえばルイス・キャロルなら存在させるかもしれず、問題はより複雑になる。
さらに、翻訳が可能なのは、互いに人間同士、ほぼ同じ世界観の中で生きていることが前提であるが、細部においては異なる例もある。例えば日本ではリンゴは赤いものであるから、「リンゴのようなほっぺ」と言えば、健康的な赤らんだ頬を想像するであろう。しかし、フランスではリンゴは緑なのが基本であるという。とすれば、そこで「リンゴのようなほっぺ」が直訳された場合、明らかに同一の意味を持たせられないであろう。
逆に言えば、世界観や関連する知識体系が共通することを前提とすれば、機械翻訳はより簡単となる。例えば事務関係とか、商業用、あるいは観光関連などでは実用的な機械翻訳もより実用的に使われる。
自動翻訳と翻訳支援
いわゆる機械翻訳は「自動翻訳」と「翻訳支援」の2つのまったく異なる方向で用いられる。自動翻訳では人間の介入は最小限であり、すべてを機械に翻訳させようとする。これは「翻訳元の言語を理解することができない人」のための技術である。これには技術的に大変な困難が伴っているため、実現への道はまだ遠い。一方、翻訳支援はプロの翻訳者が翻訳作業を効率的かつ高品質に行うために翻訳ソフトを活用するものである。これはすでに一部の先進的な翻訳者によって活用されている。だが現状では翻訳者に高度な技能が要求され、だれでも使えるものではない。
自動翻訳と翻訳支援は混同されていることが非常に多い。まず、この点を区別することから、機械翻訳についての正しい理解が始まる。
翻訳ソフトの可能性
翻訳ソフトの効果的な利用法については、旧来の考えにとらわれて、誤解されていることが非常に多いのが現状である。特に初期の翻訳ソフトの開発にかかわった人々の間では、当時とはハードウェア的にもソフトウェア的にも飛躍的な進歩があるにもかかわらず、誤解が根強い。これはひとえに「翻訳ソフトをどのように使うべきか」という議論が欠如していたことによるものである。
また英語の初心者がカスタマイズを行わずにする完全自動翻訳と、翻訳者が高度な編集作業を行う翻訳支援を、混同していることが多い。「英語が苦手だから翻訳ソフトを使用する」という発想から抜け出ることができないのである。「機械に翻訳をしてもらう」か、思い通りの翻訳を「機械にさせる」のかでは、同じ「機械翻訳」でも方向性がまったく異なる。
現在のところ、機械翻訳では小説や会話などは正しく翻訳できない。翻訳ソフトの比較と称する記事などでは翻訳ソフトが苦手とする文ばかりを訳させようとするが、これは翻訳ソフトを使いこなすという視点から見るときわめて非建設的である。
特にマニュアル翻訳などにおいては構文や語彙が限定されているため、かなり高い精度が得られる。高度な英語能力、日本語能力、翻訳能力、パソコン技能を身につけた翻訳者が、翻訳ソフトの特性を正しく理解して使用した場合、翻訳作業の効率を大幅に向上することができる。ごく一部の先進的な翻訳者は、このような翻訳ソフトの可能性に気づき、積極的に利用を行っている。
最近、実務翻訳(特にコンピュータマニュアルや取扱説明書などの類似した文章が大量に含まれる文書の翻訳)においては、翻訳メモリ ツールと呼ばれる翻訳支援ツールが使用されている。翻訳者の間でもしばしば誤解されているが、翻訳メモリ ツールと翻訳ソフトは基本的な発想をまったく異にするものである。翻訳支援ツールの中に翻訳メモリ ツールと翻訳ソフトが含まれる。業務用翻訳ソフトでは翻訳メモリ ツールの機能を含むものも多い。しかし、業務用翻訳ソフトに付属する翻訳メモリ機能は、単独の翻訳メモリ ツールと比較して管理性や柔軟性で劣る。そのため、翻訳メモリ ツールと翻訳ソフトを連携させて作業するワークフローが開発されている。
自動翻訳の実用性について
現実の翻訳は互いの言語の関係によっても大きく異なる。言語はそれぞれ孤立して存在するものではなく、多かれ少なかれ互いに影響しあって存在する。特に共通の歴史が長い場合、文法や語彙に共通性、あるいは共通の起源を多く持つことがある。そのような場合、極端に言えば単語を置き換えるだけでもある程度のレベルの翻訳が可能であるから、機械翻訳もより容易い。
だいたいの意味を知るための概訳については、フランス語、スペイン語、イタリア語などインド・ヨーロッパ語族ロマンス語系諸語間の自動翻訳は比較的順当であり、英語とロマンス語系あるいはゲルマン語系言語との間の自動翻訳も実用レベルに達しているといえる。日本語からの翻訳の場合、実用のレベルにあるのは日韓自動翻訳である。日本語と韓国語は膠着語であるという文法的共通性や、漢語からの借用語もあり、自動翻訳の精度は文体にもよるが普通80%~90%である。このため、日韓間では自動翻訳掲示板など実用サイトも存在する。(外部リンク、NAVER日韓自動翻訳掲示板参照)。
翻訳支援の場合、では、特定の分野の翻訳に適したユーザー辞書を作成することにより、翻訳ソフトの訳質は大幅に向上する。だが一定規模の企業・組織ユーザー以外の、一般ユーザーの小規模な利用シナリオでは、ユーザー辞書の利用効果よりも作成にかかる時間・労力のほうが大きい。その理由には、辞書作成に技能を要する、ユーザー辞書のコンテンツがない、辞書の相互利用のためのインフラがない、翻訳の量が少ない(規模が少ない・頻度が少ない)といったことが考えられる。これらの問題を解決するために、AAMT(アジア太平洋機械翻訳協会)がユーザー辞書を共有するための仕様であるUPFを策定した。その後、2006年から後継の仕様であるUTXが現在策定中である。
関連項目
- 自然言語処理
- 人工知能
- 中間言語
- 翻訳機
- 万能翻訳機
- 自動通訳
- ウェアラブルコンピュータ
- Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo