2022/10/14 更新
私は、ときどきクラウドファンディングで興味を持った製品を購入している。製品が届くまでに時間がかかるため、支援したことを忘れていることが多い。応援のつもりの投資なので製品の当たりはずれは仕方ないと思っている。
今までに支援した中で一番気に入っている製品は、富士通製のモバイルキーボードだ。実は、この文章もそのモバイルキーボードを使って入力している。製品が届いたときに予想以上にキーボードが薄く感じたのでキータッチが固いのだろうと思ったが、入力してみるとキーの感触はとてもいい。最近では、もう1台ほしいとまで思っている。
最近、手元に届いたのは、モバイル翻訳機だ。取説もわかりやすく、UIも直感的ですぐ操作に慣れた。今回は、製品の評価が目的ではないので敢えて製品名は書かない。
大きさは小型のガラケー程度で英数の入力キーは付いていない。Wifiのパスワードを入力するときは液晶画面に小さなソフトキーを表示させて入力するようになっている。指の太い人はキーの選択に苦労するかもしれないが、私は隣接しているキーにほとんど触れることなく入力することができた。
会話の翻訳と写真の翻訳の2種類の翻訳ができる。写真の翻訳の精度はあまり高くないが、仕方がないように思う。操作はスマホと変わらない。本体の裏側に付いたカメラで文字をスキャンして読み取るようになっている。
文章が画面の枠に収まるように翻訳機を動かしてカメラのアイコンをクリックすると上から下に2回スキャンしてテキストを読み取ってくれる。
会話の翻訳は、最初に翻訳する言語を設定するところから始める。本体の下部に翻訳ボタンAと翻訳ボタンBがホームボタンの左右に並んでおり、このボタンに翻訳する言語を割り当てる。
タッチスクリーンに翻訳ボタンAと翻訳ボタンBに対応した言語が表示されているのでそれぞれをタッチして翻訳したい言語を必要に応じて変更することができる。これだけですぐに会話翻訳を実行できる。とてもシンプルで分かりやすい。
例えばボタンAに日本語、ボタンBに英語を割り当てて日本語を英語に翻訳するときはボタンAを押したまま日本語をしゃべるとすぐに日本語の下に英語の対訳が表示される。
英語を日本語に翻訳するときはボタンBを押したまま英語を入力すると英語の下に日本語の対訳が表示される。
試しにボタンAを押して「AIがどんなに進歩しても英語の学習は必要です。」と入力してみた。結果は、以下の通りだ。
念のため、この翻訳結果が英語として成立しているのかチェックするため、DeepL翻訳サイトで英語を入力して日本語に翻訳してみた。
「いくらAIが発達しても、英語学習は必要です。」という翻訳結果が表示された。
しかし、ボタンBを押したまま翻訳された英語を入力してみたが、うまく日本語に翻訳されなかった。それは、私の発音に問題があるためだった。Learningがrunningと認識され、走るもしくは実行すると翻訳されたりして何回やってもうまくいかなかった。
これは、翻訳以前の音声認識の問題だ。間違った発音に基づいて正しい発音をデータベースから探すのはAIでも困難な作業であることは容易に想像できる。
ボタンBに登録した英語は英語(英国)で、他に英語(米国)、英語(フィリピン)、英語(オーストラリア)、英語(カナダ)、英語(インド)、英語(アイルランド)、英語(南アフリカ)、英語(ナイジェリア)、英語(ガーナ)、英語(ニュージーランド)、英語(タンザニア)、英語(香港)の英語が選択可能で英語だけでも13か国の英語が用意されている。
そうであれば、英語(日本)という選択肢が用意されていれば、先程のLearningという単語も正しく翻訳されていたかもしれない。しかし、日本は幸いにして英語は公用語になっていない。
今日、NHKのあさイチで熊本のあとぜきという方言が取り上げられていた。試しにモバイル翻訳機で「あとぜきお願いします。」を翻訳してみた。結果は以下のようになった。
翻訳結果をDeepL翻訳サイトで翻訳してみたら「あなたの意見をお聞かせください。」と翻訳された。
もし、モバイル翻訳機に英語で「開けた扉は締めてください。」と入力したときに「あとぜきお願いします。」という翻訳が表示されたら、おそらく、熊本県以外の人は意味がわからないだろう。
しかし、日本語(熊本)という選択肢が用意されていれば、「あとぜきお願いします。」という翻訳は正しいことになる。
ちなみに、「開けた扉は締めてください。」というDeepL翻訳サイトの翻訳は「Please tighten any doors that are opened.」という回りくどい表現になる。
購入したモバイル翻訳機は、Wifi経由で複数の翻訳エンジンとデータベースを利用して翻訳されるのでバッテリーの消耗が予想される。そのため、長時間の利用は難しいと思うが、翻訳精度は簡単な会話程度なら実用性が高いと思う。
英会話が苦手な人でもモバイル翻訳機を持って海外旅行に出かければ、結構、役立つように思う。日本語の音声が正しく認識されているならば、翻訳の精度が高いと予想できるからだ。
今回の簡単な実験で現在のAIのレベルを私は確認できたように思える。それは、現在のAI技術がパターン認識をベースにしているということだ。音声も画像も単なるデータの配列に過ぎず、AIは蓄積されたデータから最も近いデータを取り出しているだけだと考えられる。
極論すれば、正しいデータとか、間違ったデータとかはコンピューターには関係ない。蓄積されたデータから似たデータをすばやく取り出してくるのが現在のAIなのだろうと思う。
そこで使われているデープランニングという技術は、配列にすぎないデータから特徴点を自動的に抽出するための関数を生成する技術と考えられる。作成された関数が学習結果として利用されることで結果の精度が高まっているのではないだろうか。
私は、AI技術に造詣が深いわけでもないので単なる推測を書いているが、そんなに的外れではないような気がする。
よくAIには正確なビックデータが必要だと言われるが、正確なデータとか、正しいデータとかいう定義自体が流動的なものであるような気がする。たとえば、先程の熊本のあとぜきという方言は、標準的な翻訳ではゴミのようなデータかもしれない。英語からの翻訳結果があとぜきだったときに熊本に住んだことのない人には意味が分からないからだ。
モバイル翻訳機に13か国の英語が設定できるようになっているのは、目的にあったデータベースから効率よく翻訳結果を抽出するためなのだろう。
テキスト翻訳より会話翻訳の方が精度が高いのは、会話翻訳が音声という波形データに集約できるからだろう。音声から翻訳前の言語を正しく認識できれば、データベースから特徴の最も似た配列の波形データを翻訳結果としてコンピューターが抽出するのはそれ程、難しくないような気がする。
一方で書かれたテキストや印刷されたテキストは、背景を含めて膨大なデータから文字を抽出する必要がある。テキストの文字認識の精度のレベルを上げるのは、音声認識ほど簡単ではないように思う。画像の中から文字を抽出するより、画像の中から文字だけを読み上げて音声に変換してから翻訳した方が、効率がいいのではないだろうか。
無人コンビニもすべての処理をAIの画像認識だけで行っているわけではなく、ICタグを使って商品管理が行われている。画像認識の精度を上げることはとても難しいように思う。それより、音声認識等の他の技術を併用することで翻訳精度を上げる取り組みが必要なのではないだろうか。
モバイル翻訳機でレストランのメニューを写真翻訳するより会話翻訳で店員にメニューを読んでもらい、説明もしてもらった方がいいのではないだろうか。あるいは、メニューにバーコードやRFIDタグが貼られていれば、その情報を読み取って翻訳する方法もあるのではないだろうか。
モバイル翻訳機では相手の聞き取れなかった翻訳前の言葉を確認できるので会話が苦手でも語学の知識があれば、相手の意図をより正確にくみ取ることができるはずだ。
AIの翻訳レベルがどんなに上がっても、たとえ会話の能力が身に付かなくても言語の学習は必要だと私は考えている。