自動翻訳しやすい言葉の作りかた

筆者は翻訳学の分野で自動翻訳のためのプリエディットの研究をしています。

このプリエディット(前編集)とは「自動翻訳しやすいように入力する前の原文を編集すること」を指します。

自動翻訳システムがニューラルネットワーク・ベースに移行し、その精度が向上したことをきっかけに、あらゆる現場で自動翻訳の実用化が模索されています。その中でも、自動翻訳をうまく使いこなす術となるプリエディットの研究、特に日本語から英語への翻訳など自動翻訳が比較的うまく機能しない場合を想定した研究が盛んになっています。

例えば、以下ような日本語があったとして、これをプリエディットしてみます。

× 今、婚活中です。
*I’m married now. (私はすでに結婚しています。)

○ 今、[結婚相手を探しています]。
I am now looking for a marriage partner.

自動翻訳文はGoogle翻訳(2019年12月現在)による訳文(以下も同様)

「婚活」というワードがうまく自動翻訳されません。これを「結婚相手を探している」と言い換えることで意味が伝わるような訳文が出てきました。

このように翻訳しやすい日本語を作るポイントは、できるだけ「文脈」に頼りきらないことです。

上の例文では、「婚活」という表現を相手が知っているだろうという「文脈」を前提としています。よって、「婚活」を知らない人にとっては頭に「?」が浮かぶのです。これを「結婚相手を探している」と噛み砕いて説明することで、万人にとって理解しやすい表現となりえます。

ここで興味深いことは、機械にとってわかりやすい文を作ることは、人にとってわかりやすい文を作ることに似ている、ということです。そのため、プリエディットすることは自分が伝えたいことを正確に伝えるときにも役に立つといえます。

今回の記事は、これまで研究者やテクニカルライターたちによって作られた「自動翻訳しやすい日本語のルール」を紹介していくとともに、プリエディットする際のポイントについて書いていきます。

平岡裕資

機械翻訳を代表するIT技術が翻訳のあり方を変えつつあります。そのような拡張された時代において見えてくる言葉の本質を探求しています。「あそび」としての学問を目指しつつ、謙虚に生きていきたいです。

ADVENT CALENDAR 2019―23日の投稿

12月1日から24日までクリスマスを待つまでに1日に1つカレンダーを空けるという風習に習って、記事を投稿するイベント、それがADVENT CALENDAR!

「自動翻訳しやすい言葉」の例

ここではプリエディットの例を紹介します。

まず、擬音語・擬態語(オノマトペ)は可能な限り避けるべき表現です。なぜなら、複数の意味に捉えられやすいため、曖昧になりがちだからです。

× 彼、シュッとしてる。
*He’s shuffling.(彼は足を引きずっている?ごまかしている?)

○ 彼、[格好良いね]。
He looks cool.

関西弁では、「男前である」「背が高い」などの意味で「シュッとしている」と表すことがあります(筆者も関西出身なのでたまに使います)。この「シュッとしている」を自動翻訳はうまく訳してくれません。

また、うなぎ文と呼ばれる表現も自動翻訳しづらいものとして知られています。

。うなぎ文とは、以下のようなものです。

× 私はうなぎ。
*I am eel. (私=うなぎ)

○ 私はうなぎ[を注文します]。
I order eel.

レストランで食べ物を注文する場面を想像すると、この「〇〇」のあとに「を注文します」を補って解釈することができます。しかし、対象の一文しか処理ができない自動翻訳にとってこれは容易なことではありません。この情報を明示することで、少し不自然ですが注文はできそうな訳文を出力してくれました。

日本語に特有な主語が省略されるケースも、自動翻訳にとって翻訳しにくい表現です。

× テレビに出演されたとお伺いしました。
*I heard that you appeared on TV. (テレビに出演したのは「あなた」)

○ [平岡さんが]テレビに出演されたとお伺いしました。
I heard that Mr. Hiraoka appeared on TV.

この例では、「出演された」の主語が抜け落ちています。これを自動翻訳では ”you(あなた)”を主語として補っていますが、文脈によっては必ずしも「あなた」ではなく、第三者を指しているケースも少なくないでしょう。この誤訳を防ぐためには、例のように主語を省略せずに明示します。

自動翻訳しやすくするには

これらのような自動翻訳しやすい日本語を作るには、以下のような特徴の表現を避けることが重要です。

  • 言外の意味によって異なるように解釈されてしまう表現
  • 言外の意味なしでは解釈されにくい表現

現状の自動翻訳システムでは、複数の文を入力したとしても、基本的には一文ごとで処理を行っています。そのため、文と文のつながり(前後の文で伝達される情報)がその文の訳出に影響されることはありません。

また、前後文の情報のみならず、その原文の背景(例えば話し言葉なら話し手の声のトーンやジェスチャーなど)から、あるグループの範囲内では共有されている知識(「婚活」という単語を知っているかどうかなど)も訳出に吟味することは現状困難です。そのため、一つの文の中で意味を完結させるような言葉遣いが必要になります。

自動翻訳しにくい≒人にもわかりにくい

このように、機械にとって翻訳しにくい例とその特徴をいくつか挙げましたが、これらは機械だけにとって「わかりずらい」ものでしょうか?

例にあげた翻訳しづらい文に共通して言えることは、自動翻訳できない他に、人間の受け手をもかなりの程度で限定させてしまうということです。

オノマトペは意味が分散されるがゆえに文脈を追えている人にしか正確な意味は拾えないでしょうし、それが方言ならばその方言を話す人にしか伝わりません。うなぎ文は、私=うなぎではないことは想像がつきそうですが、レストランにいることを知らなければ「注文します」を補完できるでしょうか。ましてや、会話の中で主語を取り違えることは日常茶飯事です。

こう考えると、この「自動翻訳しにくい言葉」は「人にとってもわかりにくい言葉」であると言えそうです。

書き言葉として自分の言いたいことをどこかに残すときには、読者は想定しきれません。そのような場合に、プリエディットを用いて、読者を不用意に限定させていないかを批判的に見ることは、言いたいことが正確に伝えられる文章を書くときに役立ちます。

また、書き言葉に限らず、日常会話でも、互いの専門分野が違ったり年齢が離れていたりすることによる前提の知識(言外の意味)の程度には差がある場面は多くあります。普段だと無意識になりがちなこれらの現象に目を向け、コミュニケーションの齟齬を無くすことにもプリエディットは役立つ方法と言えるかもしれません。

まとめ

この記事で伝えたいことは以下のことでした。

  • プリエディットとは「自動翻訳しやすいように入力する前の原文を編集すること」である。
  • 自動翻訳しやすい日本語を作るには、文脈に頼りきったような、言外の意味のによって解釈が異なる表現を避けるべきである。
  • プリエディットは、人同士のコミュニケーションにとっても重要な視点である。

このコミュニケーションの観点から、プリエディットを外国語教育にも活用できるのではないか?と最近ではラボの仲間と模索しています。これについての記事はまたの機会に。

参考文献

ADVENT CALENDAR 2019
テーマ:日常の視点が思わずゆらぐ学習・活動秘話

勉強であれ、研究であれ、仕事であれ、活動であれ、本気で向き合っていると「あっ、ちょっと周りの人と考えがずれてきたな」と思うことってありませんか?深めれば深めるほど、思わぬ考えに至ったり、それが振る舞いに現れたり…

ADVENT CALENDAR 2019のテーマは「日常の視点が思わずゆらぐ学習・活動秘話」です。普段は当たり前のようにこなしている仕事やそれに必要な考えやノウハウも、そのことにとりわけ関わりのない人にとっては「思いもかけない」ことでしょう。今回、一年を振り返る間際の12月、面白い・意義深い考え方や知識、あるいは実際に日常の活動を行う中で見出している応用可能性の高い学びや経験を「ことば」にしてみませんか?

きっと本気で向き合ったときに滲み出てしまう周囲への「違和感」は、誰かにとってはダイヤの原石のような思わぬもので、味わい深いもののはずです。そんな「日常の視点が思わずゆらぐ学習・活動秘話」をお待ちしています!

Writer