機械翻訳:その精度とか問題点とか使い方とかいろいろな話。

機械翻訳の性能・精度進化が著しい昨今、いかがお過ごしですか。

先日、ある翻訳プロジェクトに従事するボランティア翻訳者たちと話をする機会があり、いろいろ話したときのことが個人的に衝撃的だったので、ちょっとそれに関するツイートを連投した。そしたらそれらが意外にバズってしまってビビったんだけど、いろんな知見を得るとともに自分の考え的なものもいろいろ思うところがあったのでブログにまとめようと思った次第。乱文・長文、先に謝罪しておきます。すみませぬ。

ツイートはこれ。これにぶら下げる形で連投した。

この話の背景

連投の最後の方で背景を少しだけ補足したけど、一応ここにもう少し詳しく記載しておく。

  • 件の翻訳者たちはある翻訳プロジェクトに応募したボランティアの翻訳者たち
  • このプロジェクトでは、それなりの英語資格を持っているボランティア翻訳者を募集しており、応募してきた翻訳者たちには書類選考の上、審査(トライアル)を実施している
  • 件の翻訳者たちはその書類選考とトライアルはパスしている
  • 件の翻訳者たちのいずれも将来的には翻訳を仕事にできたらという希望を持っている

と、ここまでが背景。

で、件の翻訳者の一人の知り合いが僕の友人で、その友人が「翻訳者の知り合いがいるから、仕事としての翻訳に興味があるならみんなでちょっと話でも聞いてみる?」みたいなことになって、「ちょっといろいろ現実的なところみたいな話ししてあげてよ」というのが今回の流れ。ちなみにこの方達は仕事としての翻訳にかなり興味がありかつ真面目に考えているようだけれども、今回のプロジェクトに参加するまでは、特に翻訳をやったり通訳をやったりという経験はなし。うち二人は、会社で英文ドキュメントを読まなければいけないことになって真剣に取り組んでいると。そこまでを事前にその友人から聞いていた。というわけで、じゃあ参考になるのであれば、ということで皆さんとご対面したのであった。

機械翻訳の使用が前提となっている彼らの翻訳方法

詳しくは聞かなかったが、ドキュメントやメール、報告書等の英和・和英翻訳が、当該プロジェクトにおける彼ら・彼女らの主な作業範囲とのこと。まあ特に変則的なものではなく、納期についてもそこまで厳しく要求はされていないらしい。翻訳方法についても特に指示はなく、できたものから上げていく方式。そして翻訳方法として、基本的に機械翻訳(複数使用してGoogleが良かったので仕様決定)を使用しているとのこと。英和も和英も、まずは原文を原文フィールドに放り込んで、アウトプットを訳文として利用していると。その時点で頭の中にクエスチョンマークが浮かんだのだけど、とりあえず流して、Google等の機械翻訳を使用する特段の理由が?と聞いたところ、主な理由として次の答えが。

  • 訳文を頑張って考える必要がない
  • 訳文がインスタントに出力されるため、本来訳文を考えるために費やす時間を節約できる
  • 自分が考える訳文より良い(ように思える)

これに対して「じゃあアウトプットされた訳文を読んで、良し悪しを判断して修正しないといけないと思うんだけど、その判定はどのように?」と聞いたところ、「とりあえず訳文を読んで、日本語・英語としておかしい部分のみを修正している」という。「原文との照合・突き合わせは必要なし?」というこちらの問に対しては、「どの訳文も基本的には原文から生成されているので、原文が変に改変されていない限りは訳文生成に問題ないと判断している。なので特に原文を読まずに訳文のみの修正で対応しているし、原文を読もうとするとそれで時間がかかるから」と。納期はあんまりきつくないのに?と言おうと思ったけどそこもとりあえず流して、「機械翻訳は頭いい?」と聞くと、「かなり自然な訳文を出力してくるし、自分ら人間が読んでも自然に読めるので精度は相当高いと思う」と。で、プラス「機械翻訳の仕組みとかには詳しいの?」と聞いてみたが、特に詳しくはないとのこと。

ううむ…と唸りつつ、「でもそういう感じで原文を読み込まないで翻訳機を通して出てきた加工食品みたいな訳文をいじくっていると、原文が言いたい意味を訳文で言えているのか気にならない?訳文が原文から乖離してしまうと思うけどその部分はどう思う?」と聞くと、「はー、そうなんですね。どうなんだろう。訳文として一応きちんとキレイに整えているつもりなので…」と。そこで試しに彼ら・彼女らによって翻訳されたドキュメントのサンプルを見たいと言ったら、残念ながら守秘義務のために見せられないとのことで、諦めた。そして衝撃の逆質問が。

「でも、Google翻訳って精度高いし普通に使いますよね?」

これに対して、「使わない…」と答えると、またも衝撃の質問が。

「え!じゃあどうやって翻訳されてるんですか?すごいですね」

えーっと。この質問の後の展開はとりあえず後に回します。まずそもそも論として、機械翻訳って本当に頭が良くて使い勝手が良いのだろうか…?

機械翻訳はその精度からして使える奴なのか?

確かに昨今というかここ二、三年でのAI翻訳を始めとする機械翻訳の精度(というか読みやすさ)は格段に進歩した。「That’s why I can…」を「あれはなぜ私はできる…」と訳していた頃から比べると、そりゃものすごい読みやすくはなった。読みやすくはなったが、「お前意味わかってねーべ」っていう訳文が吐き出されてくることも多い(気がする、個人的には)。

これまでのルールベース翻訳(人間がプレ登録した文法規則に沿って構文解析をして訳文を出力する方式)や、統計翻訳(過去の人間訳の対訳データをコーパスとして貯めて、そこをベースに訳文を出力するので、膨大なデータが必要)と違って、 Google翻訳の大元になっているニューラル翻訳ってのは、 数値に変換された各単語がニューラルネットワークと言う名のブラックボックスにぶちこまれて、うだうだ数値変換だ何だされた挙げ句に、その数値が単語・文章として変換されて訳文が出力されるというもの。この方式だと確かに滑らかな訳文出力が可能になっていて、現にニューラル翻訳に切り替わった2016年以降のGoogle翻訳は、訳文がそれまでのカクカクなものから、少しヌルヌルっとした文章になっている感じがする。要は、人間の目からして読みやすくなっているということですね。

ということは、機械翻訳、かなり使えるんじゃないの?確かに、英語以外の言語のウェブサイトやドキュメントの一部を読まなければいけない場合や、英語が公用語でない場所へ行ったときに、表示されているサインや簡単な説明を現地語から自分のわかる言語に変換して理解したい場合など、こういうときは大変助かります。人によっては、海外の人とやりとりしたり、母国語以外のツイートやメールを読んだり書いたりするのにも大変重宝していると思う。自分の場合は、現地語→日本語より、現地語→英語としたほうがとてもわかりやすいので、現地語と英語のペアで使う。詳しいことはわからないけど、日本語の言語体系や世界における日本語の取り扱われランキング(!?)・優先度でこうなってるのかな、と素人目には映るけど、まあでも結構使えるんですよ、機械翻訳。実際、英語の通じない場所に海外旅行に行くときは本当に重宝している。

ただここで(自分的使用法の)肝となっているのは、「機械翻訳は、基本的に短いフレーズやパッセージの大意・要約を知りたいときに使用する」という基本的原則である。

なぜ「短いフレーズやパッセージの大まかな内容を知りたいときにしか使わない」かというと、今のところGoogle先生は、一文ではなく、複数行の文章を入れると、持ち前のニューラル機能でもってさささっと訳文を出力してはくれるが、重複して訳出していたり、誤訳を含めてきたり、ポーカーフェイスでそのあたり結構しれっとやらかしてくる。そして句読点の打ち方や、単語を並び替えたり入れ替えたりすると、出力される訳文もどんどん変化していくのが特徴的。文脈の理解、かつその文章の本当に言いたいことである「意味」の理解がされていないがためにこれが上で述べた「お前意味わかってねーべ」っていう典型例となるわけなんだけど。「意味」というファクターを訳文生成に使えない以上、ぐぐる翻訳等の機械翻訳は、単語の置き換えをいかに精確に行うかという視点でもって翻訳作業を行っている。 しかも翻訳過程はニューラルネットワークという名のブラックボックスなので、どうしてこういう訳文が生成されるのかこちら側にはわからない。したがって、出力された訳文は、原文ともう一度照合しつつ、修正しながら読んでいく必要が出てくる。まあ単に自分のわからない文章を読むという目的で訳文を読むにはそれで良い。適当に頭の中で修正しながら「ふんふん、大まかにはこういう意味なのね」と納得してしまえばよいのだから。

ところが、翻訳作業に機械翻訳を使うとなると、出力された訳文をそのまま使用するわけにはいかなくなる。一旦原文に戻って訳文と照らし合わせて、おかしな部分を修正する、というエディット作業が必要になってくる。そしておかしな部分のみ直した訳文をクライアントにお戻しするわけにはいかないので、きちんと人間がクロスチェックを施した訳文を仕上げないといけない。 ポストエディットというやつだ。しかも機械翻訳の翻訳過程(訳文を考える過程)はブラックボックスなので、こちら側にはなぜ機械翻訳がそういう訳文を出力してきたかということがわからない。したがって「原文の意味を理解し、その意味を対象の言語で説明する」という翻訳の基本原則に沿った作業を実行するのは無理、となる。頑張って機械翻訳を使用して翻訳作業を行ったとしても、結局人間が原文と訳文を一から突き合わせて照合しなければならず、機械翻訳を使用した場合は必ずポストエディットをセットで行わなければならない。だったら最初からきちんと原文を読み込んで翻訳していったほうが結局速いし疲労度も抑えられる。

それと、件の翻訳者によると、Google翻訳は英語の勉強にたいへん役に立つとのことだったけど、自分は別の考え。Google翻訳は訳文生成プロセスが明らかでなく、かつ単なる精確な「単語置き換えマシン」以外の何物でもない以上、例えば日英の場合、「その原文に対する訳文がどうしてそういう構成になるのか、そしてその訳文を対象の言語を母国語とした人間が耳にした場合はどう受け取るのか(通じるのか否か)」を自分で判断するのは大変難しい。自分の頭で訳文なり文章なりを考えた後、それなりの校正を受けるというプロセスを繰り返すことで言語学習は成り立つという側面があると思う。だけどGoogle翻訳を使うと、自分の頭で考えるプロセスを省いて出力結果が先に出てきてしまうため、その訳文に囚われすぎてしまい、本来あるべき姿の英文などを学習することの妨げになってしまい、あまり勉強にはならないんじゃないかなと思った。まずは何よりも「良質な英文をきちんと読む」ことから始めないといけないのにな、と思う次第なのである。きちんとしたインプットなしに語学学習は無理なので。まあツイートではちょっと誇張しすぎて「勉強になんかなんねーよバカ」とか書いてはいるが、ちゃんと上記の考えを伝えてます。それを受けての「(真面目過ぎで)怖いです、何か」と言われてしまった、という(笑)。

というわけで、機械翻訳に対する今のところの自分の見解としては、「大意を得たい場合は素晴らしいツールとして威力を発揮する」という一方で、「翻訳作業に使うには大変に厳しい」というところだろうか。「今のところ」としたのは、将来的に機械翻訳がものすごい腕を上げて「意味を理解することができますよ!」というところにまで達した場合は、また考え方を変えないといけなくなるし、そうなると仕事の仕方も果ては仕事の種類までも変化していくことになるかもしれないので、その可能性がなくはない現在のところ、という意味での「今のところ」としておいた。

あと個人的には、機械翻訳を否定してはいない。「棲み分け」ができていれば良いと思うし、使い方を考えて付き合っていけばいいのでは、と思っている。

上記のテーマについては、この本が結構良かったので翻訳者に限らず読んでみたら良いかもです。

翻訳という仕事に対する意識

ここで件の翻訳者たちに話を戻す。

「使っててわかりますけどGoogle翻訳って精度高いし普通に使いますよね?」という問いに、「使わないですね…」と答えたところ、「え?じゃあどうやって翻訳やってるんですか?すごいですね…」と返され、うーむと唸った。「原文を突っ込んで出てきた訳文だけを修正するという方法は、原文をきちんと読み込んでその意味するところを理解してターゲット言語で説明するという翻訳の原理原則を無視することになっちゃうので…あと訳文に責任持てなくなっちゃいますし…」と付け加えたんだけど、そうなんだ…という感じだった。

件の連投ツイートの中で自分は、「怒っちゃいけない!と自分を制しながらも」と書いている。これはなぜかというと、自分が、「翻訳者としての仕事に対する意識・リテラシー」のような視点から、彼ら・彼女らと相対していたことに起因していたのだと思う。

確かに件の翻訳者たちは「ボランティア翻訳者」である。ボランティアという名の表すとおり、対価を得て作業をしているわけではない。あくまでボランティアなので、一定の品質を保つ義務が発生しているわけではない。実際、納期はあってないようなものらしい。だから大丈夫だ、OK。Google翻訳で、時間を節約してやろうぜ。となって機械翻訳の使用を決定したかどうかは定かではないが、一様にして彼ら・彼女らが言っていた理由「訳文を考えずに翻訳できるから時間の節約になる」=「特に考えなくても翻訳マシンが出力してくれる訳文をきちんと整えれば良い」と、自分には聞こえた。そこが自分の中で着火点になっていたのだろう。

だがしかし、である。

翻訳は決して「単語の置き換え作業」ではない。そんな単純な作業ではない。「訳文を読んだ人間が、原文を書いた人間と同じイメージを持てるようにする」ため、「原文の意図・意味をターゲット言語で説明・解説する」というのが翻訳である。そして「訳文を考える作業をしなくていいのは読者だけ」であると自分は思っている(もちろんレビュアーとか校閲者と言ったたぐいの読者は別ね)。翻訳者が「訳文を考えることなく翻訳したいなー」と言ってはいけない。翻訳者の持つべき意識として、これを言ってはいけないのだ。

なぜかというと、原文の意味を理解せず(訳文を考えず)して自分の訳文に責任をもつことは不可能だから、だ。原文を読み込むことなくして、その文章の背景や文脈を理解することは不可能である以上、きちんとした訳文を産み出すこともまた不可能なのだ。そしてきちんとした訳文を産み出すことが不可能である以上、てめえの訳した文章に対して責任を持つことも結果として不可能になるのだ。だってさ、出力された訳文のみいじくって納品した後に、クライアントにツッコまれた場合「いやー、そこはGoogle先生がそう訳したので自分にはなんとも…」なんてこと言えないですよね。Google翻訳って結局は単語の置き換えマシンなんだもん。機械翻訳を使用することで翻訳というプロセスを自分の頭で実行していない場合、その訳文がなぜそう訳されているのかということを解説することは不可能であり、想定する読者のことを慮った翻訳をすることも不可能であり、訳文に責任を持ち対価を得ることも不可能なのですと思うわけです、自分は。

だから、「訳文を考えずに翻訳する」という意見は「別に訳文については特に責任持ちませんけど、一応対象言語になっているのでそこんとこよろしく~」というような、訳文に対する、ひいては翻訳という仕事に対する責任放棄のように感じてしまい、そこに憤りを覚えてしまった大人になりきれない自分…となってしまったのだと思う。

翻訳ボランティアにそこまで求める?

でもさーボランティアなんだからそんなもんでしょ。対価を得ていないんだから、そんなに怒らなくてもよくない?翻訳初心者たち相手に、何正論かましてイキってんの?老害?彼らの態度で自分の仕事がディスられたと勝手に感じて怒ってんじゃね?仕事に対する姿勢とか意識とか、結局精神論じゃん!との声もあろうかと思う。

確かに件の翻訳者たちはボランティアである。でもここで考慮すべき点は2点あるように思う。

1つ目は先にも出したけど翻訳という仕事への意識という点。

件のプロジェクトによる募集方法は、ほぼ普通に翻訳者を募集するときに取られる方法と同じように感じた。このプロジェクトは、「ある程度の英語力を実証できる資格を持つ者」を集めた後、「トライアル」を施すことで、翻訳者に対するある程度の質を担保しようとしている。本来きちんと品質に対する対価を示すべきところをボランティアとして募集をかけているというところへ応募してきた以上、無報酬だけどある程度の品質は求めますからね、という言外のメッセージを件の翻訳者たちは理解しているのだろう、と自分は思っていた。なおかつ彼ら・彼女らは、翻訳を仕事として今後も従事していきたいと口にしている。となると、ある程度この業界でご飯を食べてきたこちらも自然に「翻訳者としてのイロハ」とか「翻訳者たるもの…」みたいなコンセプトを頭の片隅に置いて話をする、ということになる。そこでいきなり「とりあえず機械翻訳にかけてスポーンって出てきたものを訳文としていじって、ハイ納品!って感じでやってます、楽だし時間かかんないし良いと思います」みたいな意識で「仕事として翻訳やってます」なんて言われても(まあ最終的に淘汰されるのはその本人だから別にいいけど)困る。しかも「なーんだ翻訳って英文和訳・和文英訳みたいな感じで置き換えていけばなんとかなるんだ、じゃあ誰だってできそうじゃん機械翻訳使えばもっと楽にできそうじゃん」とか思われても困る。実際まったくもってそうじゃないし。

だってさ、例えばの話、あるアプリを開発するプロジェクトがあったとして、そのプロジェクトの責任者が「そこそこプログラミングに明るい人たちをボランティアで開発者として募集しよう」と提案し、そういうボランティアが集まってきたとする。プログラミングの経験は特にありませんけど、そのへんの仕事をしようとは思っている、とか考えているボランティアたち。で、そのボランティアたちが「最近はAI開発機が進んでるので、そのAIに指定された要件定義書突っ込んでそこから出力されたコードを使えばいいよね」となり、その理由が「だってAIの方が自分たちでコーディングするより速いしアプリについて考えることなく作業できて楽だからそうしてます」なんて言ってきた日には…と思うわけです。自分たちのコードに対する責任とかは…?と。「もうちょっとちゃんと勉強してプログラミングに対する意識を変えたほうが良くない?」と一言言いたくもなるんじゃないでしょうか。 まあちょっと乱暴なたとえ話ではあると思いますけど。

要は、将来的にそういう仕事を考えていてボランティアとはいえ実際の作業に従事する、というような場合、その仕事に対する意識とか必要とされるリテラシーや方法論などに触れようとする意気込みくらいはあってもいいのでは?と思うわけです。「ぐぐるで楽ちん、余裕余裕」でいいの?という。翻訳を仕事にしたいと言ってるけど、そういう意識でいいの?という。まあプロジェクト側で「PC使えりゃ誰でも良いよ、とにかくガンガンやってくれ」みたいな募集の方法だったらそれこそ誰でも良くて、そういう翻訳というものに対する意識とかリテラとかどうでも良いんだけど。でも将来的にそういう仕事をしていきたいと考えているのであれば、仕事に対する姿勢とか意識とか、そこらへんちゃんと考えたほうが良くね?ということは問題提起として挙げたいと思ったのであった。

2つ目は、「報酬払って募集した方が良い」という点。

最終的にはここなんですよね、結局。問題視点的には、翻訳者が持つべき意識という点から、プロジェクト管理側が持つべき意識へと移る。考え方としては至ってシンプルで、「品質をきちんとさせたいのであれば、ボランティア翻訳者ではなく、しっかり報酬払ってプロの翻訳者を雇うべき」という点。ツイートとしても少し触れたけど、深くは話さなかった。そして「プロを雇うべきだろ?」という意見はたくさんあったし、それはもうこの世界で食べている人間として自分が一番良くわかっている点である。きちんと予算を割き、きちんとした人員を雇い、きちんとした仕事を納品してもらう。訳文に責任を持って。こういう基本的な部分をしっかりしないで「質の高い仕事をタダで…」なんて考えているところとは話しないほうが良い。だからそういう意味では大量のボランティアを募集している東京オリンピックとか、どうなのかなモヤモヤとするのである…うーん。本当にどうなのかなあれは、と思う。あと機械翻訳でいうと、東北観光なんたらのウェブサイトを機械翻訳でやったらとんでもないものが出来上がってそれをそのまま公開してたり、「アインシュタイン本」の和訳が実は機械翻訳で何言ってるのかちんぷんかんぷんだった、とか実際既に機械翻訳にまつわる事故めいたものは起きているのである。うちの隣の市のウェブサイトの英語版は堂々と「機械翻訳だから間違っている所あるかもだけどそこは大目に、ね♪」みたいなことを言っていて、その市に住んでいる英語ネイティブ友人に聞いてみたら「サイト?ああ、あれね。英語はマジ最低すぎて何言ってるかわかんなかったね。ゴミも捨てらんねーから隣の人に聞いたらわかりやすい日本語で説明してくれたんだ」と。そういう公的なものはちゃんと予算充ててちゃんとやっといたほうが良いと思うんだけどなあ。情報とか大切なのに。ちなみに今その市のウェブサイト見たけど、やっぱ相当わかりにくいですねこれは、っていう…はあ。こういう機械翻訳だから許してねを公言しているサイト多いんだよな…。

なので本当に、発注側ももう少し「翻訳に対する意識」を変えていってほしいな、と思う。変えるっていうか、正直なところ翻訳についてあまりよく知らない、っていう感じなのだろうから、まずはその理解を深めてほしい。なんなら自分たちだけで翻訳してみてほしい。まあでも経験上、「***文字、やっといてーよろしくー英語できるんだし簡単でしょ?」みたいな感覚のところって未だにたっくさんある。こういうところの意識を改革していくのはどうすればいいのだろう、と考えるとだんだん頭がおかしくなってきてしまいそうになるので、一介の個人翻訳者としては、こういうところとはお話しなくていいや、他を探しませう…とさっさと別をあたって行動したほうが良いのだろうなと思ってしまうんである…。が、翻訳者からのアクションや声あげもやっぱ必要なんだろうな、と思い超絶微力ながらこういう記事を書きました。はい。でもなんか、機械翻訳の話っていうより、愚痴みたくなってしまった。ごめんなさい。好きだよ、機械翻訳!

でも。世の中の認識として、機械翻訳が紡ぎ出す出力する訳文レベルがいわゆる翻訳なんである、みたいなことになってしまったらそれはちょっと怖いな、と思う。

あなたがやれば?あなたは無報酬でできるの?

これ言われたんですけどね。やりません。できるできないではなく、やりません。

おわり。

Hatena Bookmark - 機械翻訳:その精度とか問題点とか使い方とかいろいろな話。
Pocket
LINEで送る

1 thought on “機械翻訳:その精度とか問題点とか使い方とかいろいろな話。”

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.